estatistica aplicada 4

Post on 05-Dec-2014

118 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Prof. Valter de Senna, PhD vsenna@terra.com.br

1

Estatística Aplicada

FACULDADE DE TECNOLOGIA SENAI CIMATEC

Prof. Valter de Senna, PhD vsenna@terra.com.br

2

Tópicos do Curso (sem stress)

Conceitos básicos de probabilidade e estatística;

Medidas de Posição (Média, Mediana, Moda);

Medidas de Dispersão (Desvio Padrão e Coeficiente de Variação);

Representação gráfica (histogramas, gráficos de setores);

Cálculo de Probabilidades;

Variáveis aleatórias e distribuições de probabilidade;

Distribuições Binomial e de Poisson;

Distribuições Normal, Exponencial e Weibull;

Intervalos de Confiança;

Controle de Processos;

Análise de Pareto, Diagrama de Causa e Efeito, Histogramas e Gráficos.

O que ocorrer

Prof. Valter de Senna, PhD vsenna@terra.com.br

3

Conceitos básicos

Contextualização histórica

Dificuldades conceituais

Problema de Monty Hall

Paradoxo de Bertrand

Paradoxo da troca

Prof. Valter de Senna, PhD vsenna@terra.com.br

4

Monty Hall (três portas)

Prof. Valter de Senna, PhD vsenna@terra.com.br

5

Monty Hall

Prof. Valter de Senna, PhD vsenna@terra.com.br

6

Tipos de Escalas

Nominal

Ordinal

Corresponde a variáveis onde temos categorias nas quais não há – ou não cabe – a noção de ordem. Por exemplo, sexo, cor, religião etc.

Corresponde a variáveis que se aplicam a situações onde há uma ordem, mas não se tem uma noção de distância entre os pontos da escala. Por exemplo, classe social, nível educacional, avaliações qualitativas etc.

Prof. Valter de Senna, PhD vsenna@terra.com.br

7

Tipos de Escalas

Intervalar

Temos nessa escala a noção de distância entre pontos, mas a posição da origem é arbitrária. Um exemplo freqüentemente citado é a temperatura medida em graus Centígrados ou Fahrenheit. Note que, quando na escala Celsius (centígrado) a temperatura passa, digamos, de 2º para 6º positivos, ela passa na escala Fahrenheit de 35,6º para 42,8º. Veja assim, que não tem sentido dizermos que ao passar de 2º para 6º, ficou três vezes mais quente.

Obs: a fórmula de conversão entre Centígrados e

Fahrenheit é 325

9 CF

Prof. Valter de Senna, PhD vsenna@terra.com.br

8

Tipos de Escalas

Razão

Nessa escala, a origem (zero) tem posição fixa. Temos assim, não só a distância entre pontos na escala como uma medida significativa, como também é relevante o valor relativo dos pontos na escala. Exemplos são: peso, altura, salário, idade, temperatura medida em graus Kelvin e outros. Veja que podemos dizer que um salário de R$6.000,00 é o dobro de um salário de R$3.000,00.

Prof. Valter de Senna, PhD vsenna@terra.com.br

9

Tipos de Escalas

Note que é preciso atenção,

com escalas cíclicas como dias da semana, pontos em uma circunferência e outros;

para que variáveis categóricas, por exemplo, ao serem codificadas em uma base de dados como 1, 2, 3 e sucessivamente, não sejam confundidas com variáveis em uma escala intervalar ou de razão;

com valores ausentes em uma base de dados. Podem estar ausentes porque não foram coletados ou porque não se aplicam ao indivíduo.

Prof. Valter de Senna, PhD vsenna@terra.com.br

10

Conceito de variação

• NÃO HÁ 2 itens produzidos pelo mesmo processo que sejam idênticos, devido às muitas fontes de variabilidade.

• A variação entre eles pode ser grande ou muito pequena.

Prof. Valter de Senna, PhD vsenna@terra.com.br

11

Distribuição

Valores individuais embora diferentes, como grupo tendem a formar um padrão.

Este padrão é chamado de distribuição.

Prof. Valter de Senna, PhD vsenna@terra.com.br

12

Caracterizações de uma distribuição

As distribuições podem diferir quanto à:

Localizacão Dispersão Forma

ou por qualquer combinação das três.

Prof. Valter de Senna, PhD vsenna@terra.com.br

13

Medidas de Tendência Central (localização)

Prof. Valter de Senna, PhD vsenna@terra.com.br

14

Medidas de Tendência Central

A Média Aritmética

A média aritmética, é a soma de todas as observações dividido pelo número de observações. Algebricamente, escrevemos:

xn

xx x x

nii

nn

1

1

1 2

Observe que, cx c xii

n

ii

n

1 1

Prof. Valter de Senna, PhD vsenna@terra.com.br

15

Média enganosa

2 cm 4 cm

Diâmetro médio 3 cmVolume “médio” 14,1 cm3

40 bolas 565,5 cm3

Diâmetro 2 cmVolume 4,2 cm3

20 bolas 83,8 cm3

Diâmetro 4 cmVolume 33,5 cm3

20 bolas 670,2 cm3

83,8 cm3 + 670,2 cm3 = 754,0 cm3

Prof. Valter de Senna, PhD vsenna@terra.com.br

16

Medidas de Tendência Central

A Mediana

A mediana é a segunda medida de tendência central em termos de popularidade. Suponha que a nossa amostra consiste de n observações. A mediana é definida como:

A razão da definição anterior é garantir que o mesmo número de observações se situa acima e abaixo da mediana.

Prof. Valter de Senna, PhD vsenna@terra.com.br

17

Medidas de Tendência Central

Em outras palavras, mediana é o valor abaixo do qual estão metade dos dados ou da distribuição. Se o número de observações é par, usualmente toma-se como mediana o ponto médio entre os dois valores (observações) centrais.

Obs.: é uma estatística robusta.

Prof. Valter de Senna, PhD vsenna@terra.com.br

18

Medidas de Tendência Central

A Moda

A moda é o valor mais freqüente entre as observações que compõem uma amostra.

Obs.: comentar abusos de linguagem, distribuições bimodais etc.

Prof. Valter de Senna, PhD vsenna@terra.com.br

19

Medidas de Tendência Central

A Média Geométrica

A média geométrica, como medida de tendência central, é útil para caracterizar distribuições de dados cujos valores são muito espalhados. Ela é dada pela formula:

Obs.: A média geométrica para dados distintos é sempre menor que a média aritmética.

Prof. Valter de Senna, PhD vsenna@terra.com.br

20

Medidas de dispersão (espalhamento)

A Amplitude

A amplitude é definida como a diferença entre a maior e a menor observação em uma amostra.

A amplitude amostral é uma medida bastante simples de calcular. Tem como desvantagens o fato de ser inteiramente dependente dos valores extremos e variar (aumentando) com o tamanho da amostra.

Prof. Valter de Senna, PhD vsenna@terra.com.br

21

Medidas de dispersão (espalhamento)

Quantil (percentil)

O p-ésimo percentil de um conjunto de dados é definido como:

i) A média entre as observações de número np/100 e (np/100 + 1)

na amostra ordenada, se np/100 é um número inteiro.

ii) A observação de número [np/100 + 1], na amostra ordenada, se np/100 não é um número inteiro. [x] significa “maior inteiro menor ou igual a x”.

A mediana corresponde portanto ao percentil 50.

Prof. Valter de Senna, PhD vsenna@terra.com.br

22

Medidas de dispersão (espalhamento)

A dispersão dos dados pode ser medida pela diferença

entre dois percentis. Podemos por exemplo utilizar a

diferença entre os percentis 90 e 10. Esta diferença é

menos sensível a valores extremos do que a amplitude

definida anteriormente. Também é bastante comum a

utilização da diferença entre os percentis 75 e 25

(chamada amplitude interquartílica).

Prof. Valter de Senna, PhD vsenna@terra.com.br

23

Medidas de dispersão (espalhamento)

A Variância e o Desvio Padrão

Prof. Valter de Senna, PhD vsenna@terra.com.br

24

Medidas de dispersão (espalhamento)

Coeficiente de Variação (CV)

Fornece uma medida da dispersão relativa dos dados ou da distribuição de probabilidade. É dado por,

CV =

Comentar: assimetria, curtose etc

onde σ é o desvio padrão e μ é a média.

Prof. Valter de Senna, PhD vsenna@terra.com.br

25

Visualização de Dados

A utilização de gráficos para visualização de dados é, sem dúvida, a ferramenta mais poderosa em estatística. Através de gráficos podemos tentar imaginar que tipo de processo pode ter dado origem aos resultados obtidos, bem como localizar resultados espúrios ou oriundos de contaminação do processo.

Prof. Valter de Senna, PhD vsenna@terra.com.br

26

Histogramas

Representam graficamente as distribuições de freqüências de ocorrências em um conjunto de dados.

Histogramas de freqüência: obtidos contando-se o número de observações que caem em cada intervalo (bin).

Histogramas de freqüência relativa: obtidos a partir de histogramas de freqüência, dividindo o total de observações que caem em cada intervalo, pelo total geral de observações.

Histogramas de densidade: obtidos dividindo a freqüência relativa pela largura de cada intervalo (em geral constante). Obtemos assim um histograma com área total igual a 1.

Prof. Valter de Senna, PhD vsenna@terra.com.br

27

Lei de Benford

Prob(mantissa < t) = log10t , 1 t < 10

Para os primeiros dígitos, d = 1, 2, ..., 9, isto significa,

Prob(primeiro dígito significativo = d) = log10(1+ 1/d)

Em geral, Prob(mantissa < t) = logbt , 1 t < b

Prof. Valter de Senna, PhD vsenna@terra.com.br

28

Tabela de probabilidade dos primeiros dígitos

Lei de Benford

Primeiro dígito

Probabilidade

1 30.1%

2 17.6%

3 12.5%

4 9.7%

5 7.9%

6 6.7%

7 5.8%

8 5.1%

9 4.6%

Prof. Valter de Senna, PhD vsenna@terra.com.br

29

Por quê a lei de Benford funciona?

• Amostras aleatórias de variáveis aleatórias

• Invariancia em escala implica na lei de Benford

• Invariancia em base implica na lei de Benford

Prof. Valter de Senna, PhD vsenna@terra.com.br

30

Exemplos

Fibonacci sequence

0.0%

5.0%

10.0%

15.0%

20.0%

25.0%

30.0%

35.0%

1 2 3 4 5 6 7 8 9

1st digit

Benford

Sequencia de Fibonacci e a lei de Benford:

Prof. Valter de Senna, PhD vsenna@terra.com.br

31

Histograma de frequência

415

municípios

Primeiro dígito da área (checar se é densidade populacional!) dos 415 municípios da Bahia e a lei de Benford:

Prof. Valter de Senna, PhD vsenna@terra.com.br

32

Histograma de frequência relativa e lei de Benford

Prof. Valter de Senna, PhD vsenna@terra.com.br

33

Como mentir estatisticamente

0

20

40

60

80

100

120

1995 1996 1997 1998 1999 2000 2001 2002

Ano

IPC

ac

um

ula

do

IPC acumulado em Salvador durante os governos FHC (PSDB)

Prof. Valter de Senna, PhD vsenna@terra.com.br

34

Como mentir estatisticamente

20

30

40

50

60

70

80

90

100

110

1995 1996 1997 1998 1999 2000 2001 2002

Ano

IPC acumulado em Salvador durante os governos FHC (PT)

Prof. Valter de Senna, PhD vsenna@terra.com.br

35

Como mentir estatisticamente

0

50

100

150

200

250

300

350

400

450

500

1995 1996 1997 1998 1999 2000 2001 2002

Ano

Valor do salário mínimo durante os governos FHC (PT)

Prof. Valter de Senna, PhD vsenna@terra.com.br

36

Como mentir estatisticamente

100

110

120

130

140

150

160

170

180

190

200

1995 1996 1997 1998 1999 2000 2001 2002

Ano

Valor do salário mínimo durante os governos FHC (PSDB)

Prof. Valter de Senna, PhD vsenna@terra.com.br

37

Como mentir estatisticamente

100

200

1995 2002

reais

reais

Crescimento do salário mínimo no governo FHC (PSDB)

Prof. Valter de Senna, PhD vsenna@terra.com.br

38

População da Região Metropolitana de Salvador

20000

25000

30000

35000

40000

45000

Po

pu

laçã

o

IBGE 2000R.M. Salvador

Mulheres

Homens

Prof. Valter de Senna, PhD vsenna@terra.com.br

39

População por sexo e faixa etária – R.M.S.

Pirâmide R.M. Salvador 2.000

0 20 40 60 80 100 120 140 160 180 200

0 a 4 anos

10 a 14 anos

20 a 24 anos

30 a 34 anos

40 a 44 anos

50 a 54 anos

60 a 64 anos

70 a 74 anos

80 a 84 anos

Faix

a Et

ária

População (mil pessoas)

Homens Mulheres

Prof. Valter de Senna, PhD vsenna@terra.com.br

40

Gráfico de Ramo e Folha

Foram introduzidos por Tukey em 1977, no livro Exploratory Data Analysis. As observações, compostas de pelo menos 2 dígitos, são separadas (cada uma delas) em duas partes: o ramo e a folha.

O ramo, é formado pelo dígito (ou dígitos) principal enquanto que o dígito restante (talvez após arredondamento) forma a folha. Por exemplo, a observação 25 teria ramo 2 e folha 5. O gráfico ramo e folha é interessante porque não só mostra a forma aproximada da distribuição dos dados como também fornece uma lista dos próprios dados.

Prof. Valter de Senna, PhD vsenna@terra.com.br

41

Gráfico de Ramo e Folha

Uma desvantagem do ramo e folha é que, ao contrário de histogramas, não é muito útil quando temos uma grande quantidade de dados, devido à “altura” que ficam os gráficos (por isso que tive que retirar, para o gráfico seguinte, uma sub-amostra de tamanho 100 dos dígitos dos municípios da Bahia).

Obs.: Discutir problemas nos histogramas associados à largura das faixas!

Prof. Valter de Senna, PhD vsenna@terra.com.br

42

Gráfico de Ramo e Folha

Prof. Valter de Senna, PhD vsenna@terra.com.br

43

Box Plot (box e whisker) ou “caixa e bigode”

Utiliza cinco parâmetros obtidos a partir do conjunto de dados:

Prof. Valter de Senna, PhD vsenna@terra.com.br

44

Box plot

Se chama maior valor adjacente ao maior valor dos dados que é menor ou igual ao limite superior, LS. Ele se torna uma das pontas do bigode. Analogamente, o menor valor adjacente é o menor valor dos dados que é maior ou igual ao limite inferior, LI. É a outra ponta do bigode.

Observações além das pontas dos bigodes são plotadas individualmente.

Prof. Valter de Senna, PhD vsenna@terra.com.br

45

Box plot

Prof. Valter de Senna, PhD vsenna@terra.com.br

46

Box plot: casamentos no Brasil, 1984 a 1998Casamentos Brasil, 1984 a 1998

J aneiro

Março

Maio J ulho

Setembro

Novembro

44410

54410

64410

74410

84410

94410

104410

Prof. Valter de Senna, PhD vsenna@terra.com.br

47

Casamentos no Brasil, mês a mês, de 1984 a 1998

Prof. Valter de Senna, PhD vsenna@terra.com.br

48

Nascimentos no Brasil, mês a mês, de 1984 a 1998

Prof. Valter de Senna, PhD vsenna@terra.com.br

49

Nascimentos no Brasil, mês a mês, de 1984 a 2003

Prof. Valter de Senna, PhD vsenna@terra.com.br

50

Em muitas situações, nos deparamos com dados, relativos

a um processo ou objeto caracterizado em várias

dimensões. Por exemplo, um processo industrial precisa

ser monitorado em vários aspectos. Um paciente internado

numa UTI, precisa ter varias de suas funções vitais

acompanhadas permanentemente. Ou, precisamos

identificar e agrupar objetos distintos, a partir de

características medidas, visando descobrir grupos

homogêneos quanto ao uso de recursos, entender o

resultado de intervenções ou mesmo comparar a

performance de unidades distintas.

Dados multivariados

Prof. Valter de Senna, PhD vsenna@terra.com.br

51

Significado das variáveis, por ordem nas tabelas

1. área da face

2. forma da face

3. comprimento do nariz

4. localização da boca

5. curva do sorriso

6. largura da boca

Prof. Valter de Senna, PhD vsenna@terra.com.br

52

Cães pré-históricos da Tailândia

Em escavações de sitios pré-históricos na

Tailandia foram encontrados ossos de cães

datados de 3.500 a.c. A origem desses cães é

incerta. Podem descender do chacal dourado ou

do lobo. Como o lobo não é nativo da Tailândia,

poderiam vir da China ou da India. Suspeita-se que

o dingo possa ter se originado na India e o cuon é

do sudeste asiático.

Prof. Valter de Senna, PhD vsenna@terra.com.br

53

Cuon, dingo, chacal dourado, lobo indiano e cão tailandes

Cuon Dingo

Lobo

Chacal Cão

Prof. Valter de Senna, PhD vsenna@terra.com.br

54

Variáveis medidas nos ossos da mandíbula

1. largura da mandíbula

2. altura da mandíbula abaixo do 1o molar

3. comprimento do 1o molar

4. largura do 1o molar

5. espaço do 1o ao 3o molar

6. espaço do 1o ao 4o pré-molar

Prof. Valter de Senna, PhD vsenna@terra.com.br

55

Faces de Chernoff para mandibulas de cãesMandibulas de caes

1 2 3

4 5 6

7

1. Cão moderno

2. Chacal

dourado

3. Lobo chines

4. Lobo indiano

5. Cuon

6. Dingo

7. Cão pre-

historico

Prof. Valter de Senna, PhD vsenna@terra.com.br

56

Gráfico de estrelas para mandíbulas de cãesMandibulas de caes

1 2 3

4 5 6

7

1. Cão moderno

2. Chacal

dourado

3. Lobo chines

4. Lobo indiano

5. Cuon

6. Dingo

7. Cão pre-

historico

Prof. Valter de Senna, PhD vsenna@terra.com.br

57

Variaveis medidas em taças escavadas na Tailândia

Prof. Valter de Senna, PhD vsenna@terra.com.br

58

Faces de Chernoff para taças pré-históricasCalices pre-historicos da Tailandia

1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

21 22 23 24 25

Prof. Valter de Senna, PhD vsenna@terra.com.br

59

Noções de Probabilidade

Espaço amostral: conjunto de resultados possíveis de um experimento.

Eventos: são subconjuntos do espaço amostral.

Prof. Valter de Senna, PhD vsenna@terra.com.br

60

Diagramas de Venn

Espaço amostral com eventos A e B

Prof. Valter de Senna, PhD vsenna@terra.com.br

61

Diagramas de Venn

Eventos A e B não têm resultados em comum

A B

Prof. Valter de Senna, PhD vsenna@terra.com.br

62

Diagramas de Venn

Prof. Valter de Senna, PhD vsenna@terra.com.br

63

Diagramas de Venn

Prof. Valter de Senna, PhD vsenna@terra.com.br

64

Diagramas de Venn

Prof. Valter de Senna, PhD vsenna@terra.com.br

65

Exemplo

Sejam E, F, e G três eventos em um espaço amostral S. Encontre expressões para os seguintes eventos:

a) somente F ocorre

b) E e F ocorrem mas G não ocorre

c) pelo menos um dos três eventos ocorre

d) pelo menos dois dos três eventos ocorrem

e) todos os três eventos ocorrem

f) nenhum dos três eventos ocorre

g) no máximo um dos três ocorre

h) no máximo dois dos três ocorrem

Prof. Valter de Senna, PhD vsenna@terra.com.br

66

Solução

) ( ) ( )

)

)

) ( ) ( ) ( )

)

)

) ( ) ( ) ( )

)

a F E G F E G F E G

b E F G

c E F G

d E F E G F G

e E F G

f E F G E F G

g E F E G F G

h E F G

Prof. Valter de Senna, PhD vsenna@terra.com.br

67

Noções de Probabilidade

Probabilidade: é uma função definida sobre os eventos de um espaço amostral, com as seguintes propriedades;

Prof. Valter de Senna, PhD vsenna@terra.com.br

68

Noções de Probabilidade

Algumas consequências imediatas da definição acima são:

Prof. Valter de Senna, PhD vsenna@terra.com.br

69

Exemplo

Sessenta porcento da população bebe. 40% fuma e 50% pragueja. Somente 25% não tem nenhum destes hábitos e 20% tem os três. Além disso, 25% fuma e pragueja, e 40% bebe e pragueja. Qual é a probabilidade de um sujeito escolhido ao acaso beber e fumar? Beber e fumar mas não praguejar?

Prof. Valter de Senna, PhD vsenna@terra.com.br

70

Solução

Prof. Valter de Senna, PhD vsenna@terra.com.br

71

Noções de Probabilidade

Probabilidade Condicional: dados dois eventos A e B, a probabilidade condicional de A dado B é;

Prof. Valter de Senna, PhD vsenna@terra.com.br

72

Exemplo

Três jornais, A, B e C são publicados em uma cidade. Uma pesquisa de opinião revelou que 20% lê o jornal A, 16% lê o jornal B, 14% lê C, 8% lê A e B, 5% lê A e C, 4% lê B e C e 2% lê A, B e C. Se uma pessoa é escolhida ao acaso, encontre a probabilidade de que ela:

a) não leia nenhum jornal,

b) leia somente um dos jornais,

c) leia pelo menos A e B se se sabe que ela lê pelo menos um dos jornais.

Prof. Valter de Senna, PhD vsenna@terra.com.br

73

Resposta

Prof. Valter de Senna, PhD vsenna@terra.com.br

74

Noções de Probabilidade

Eventos independentes: dois eventos A e B são ditos independentes se P(A | B) = P(A).

Obs.: dois eventos são mutuamente exclusivos se não podem ocorrer ao mesmo tempo.

Prof. Valter de Senna, PhD vsenna@terra.com.br

75

Exemplo

Prof. Valter de Senna, PhD vsenna@terra.com.br

76

Solução

Prof. Valter de Senna, PhD vsenna@terra.com.br

77

Exemplo

Uma moeda é lançada N vezes. Seja A o evento "pelo menos 2 coroas" , e B o evento "uma ou duas caras". Mostre que A e B são eventos independentes para N=3 mas não para N=4.

Prof. Valter de Senna, PhD vsenna@terra.com.br

78

Solução

Prof. Valter de Senna, PhD vsenna@terra.com.br

79

Noções de Probabilidade

Prof. Valter de Senna, PhD vsenna@terra.com.br

80

Noções de Probabilidade

Teorema de Bayes:

Prof. Valter de Senna, PhD vsenna@terra.com.br

81

Exemplo

Cinco porcento dos aparelhos de televisão de uma linha de produção tem os controladores vertical e horizontal defeituosos. Em oito porcento, somente o controle horizontal é defeituoso. Se o aparelho tem o controle horizontal defeituoso, qual a probabilidade do controle vertical estar defeituoso ?

Prof. Valter de Senna, PhD vsenna@terra.com.br

82

Solução

V = vertical defeituosoH = horizontal defeituosoP(V∩H) = 5% e P(H∩Vc) = 8%

P(H) = P(H∩V) + P(H∩Vc) = 13%

Logo, P(V|H) = P(V∩H)/P(H) = 5%/13% = 38,5%

Prof. Valter de Senna, PhD vsenna@terra.com.br

83

Exemplo

Suponha que 0.1% da população está  infectada com uma certa doença. Num exame médico para essa doença, 98% dos infectados dá resultado positivo, e 99% dos não infectados dá resultado negativo. Se uma pessoa escolhida ao acaso é examinada e dá  um resultado positivo, qual a probabilidade desta pessoa ter a doença ?

Prof. Valter de Senna, PhD vsenna@terra.com.br

84

Solução

D = doença e P(D) = 0,1% = 1/1.000P(+|D) = 98% (sensitividade) e P(-|Dc) = 99% (especificidade)

P(Dc) = 99,9% e P(+|Dc) = 1%. Queremos P(D|+) = P(+|D).P(D)/P(+) e temosP(+) = P(+|D).P(D) + P(+|Dc). P(Dc). Logo, P(D|+) = = (98%x 0,1%)/(98%x0,1% + 1%x99,9%)) =

98/1097 = 8,8% < 10%

Prof. Valter de Senna, PhD vsenna@terra.com.br

85

Método das Respostas Randomizadas

•A ideia central é que o entrevistado responde a uma entre duas perguntas, escolhidas aleatoriamente.

•Uma das perguntas é totalmente inocente e a outra é uma pergunta embaraçosa.

•O entrevistador não sabe a que pergunta a resposta se refere.

Prof. Valter de Senna, PhD vsenna@terra.com.br

86

Modo de execução

• O entrevistado sorteia a pergunta a ser respondida (por exemplo, jogando uma moeda), sem que o entrevistador saiba o resultado do sorteio.

• Se, digamos, o resultado for cara ele responde a uma pergunta delicada que se quer apurar, algo como “Você já roubou da sua empresa?” Se der coroa, ele responde a uma pergunta inócua do tipo “Você nasceu em abril?”

Prof. Valter de Senna, PhD vsenna@terra.com.br

87

Um pouco de Matemática

p = proporção que já roubou da empresa1/12 = proporção de pessoas que nasceram em abrils = proporção de “sim” nas respostas.

Temos:

s = px 1/2 + (1/12) x 1/2 e portanto, a proporção que já roubou da empresa pode ser obtida, resolvendo a equação acima, como:

p = 2 x s – 1/12

Prof. Valter de Senna, PhD vsenna@terra.com.br

88

Exemplo

112 estudantes de uma universidade inglesa.

O questionário era sobre homossexualismo.

Uma pergunta era:

Eu não tenho interesse pelo sexo oposto

A outra pergunta era:

Meu último aniversário caiu num domingo

Prof. Valter de Senna, PhD vsenna@terra.com.br

89

Resultados

11 alunos responderam “sim”

Por analogia com o exemplo anterior, a proporção na turma é portanto:

gays = 2 x proporção de sim - 1/7

gays = 2 x (11/112) – 1/7 = 0,054 = 5,4%

Prof. Valter de Senna, PhD vsenna@terra.com.br

90

Variável Aleatória

Comumente estamos interessados em uma função do resultado de um experimento. Por exemplo, ao lançarmos dois dados podemos estar interessados na soma dos números obtidos. A essa função, definida sobre o espaço amostral, chamamos variável aleatória. Aos valores de uma variável aleatória temos associadas probabilidades, de uma maneira natural.

Prof. Valter de Senna, PhD vsenna@terra.com.br

91

Variável Aleatória: exemplo

Número de lançamentos de uma moeda até obtermos "cara". Chamando de N a variável aleatória ( a convenção é utilizarmos letras maiúsculas), temos:

P(N = 1) = p

P(N = 2) = (1- p)p

P(N = 3) = (1- p) p

P(N = n) = (1- p) p , n 1

2

n-1

onde p é a prob. do resultado ser "cara".

A variável N acima é dita uma variável aleatória discreta, porque o seu conjunto de valores possíveis é um conjunto discreto.

Prof. Valter de Senna, PhD vsenna@terra.com.br

92

Distribuição Acumulada

A distribuição acumulada F(x) de uma variável aleatória X é definida como:

( ) Prob[ ] para - <x<F x X x

A distribuição acumulada F(x) satisfaz às seguintes propriedades:

(i) 0≤F(x)≤1

(ii) F(x) é não decrescente, isto é, se 1 2 1 2então ( ) ( )x x F x F x

lim ( ) 0x

F x

lim ( ) 1x

F x

e (iii)

Prof. Valter de Senna, PhD vsenna@terra.com.br

93

Função massa de probabilidade

Além disso,

A função de distribuição F(x) acumulada é dada por:

Prof. Valter de Senna, PhD vsenna@terra.com.br

94

Exemplo

X uma variável aleatória discreta, com valores 1, 2, 3 e 4 que ocorrem com probabilidade 1/6, 1/3, 1/3 e 1/6

Prof. Valter de Senna, PhD vsenna@terra.com.br

95

Média de variáveis aleatórias

Prof. Valter de Senna, PhD vsenna@terra.com.br

96

Variância e desvio padrão

Prof. Valter de Senna, PhD vsenna@terra.com.br

97

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

98

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

99

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

100

Exemplo

Assuma que a probabilidade de que um passageiro, com reserva, não compareça ao embarque é de 5%. Se uma companhia aérea vende 52 passagens para um avião de 50 lugares, qual a probabilidade de que todos que compareçam consigam embarcar?

Prof. Valter de Senna, PhD vsenna@terra.com.br

101

Solução

5052

0

52.0,95 .(1 0,95)x x

x x

51 1 52 052 521 .0,95 .(1 0,95) .0,95 .(1 0,95)

51 52

= 0,74 = 74% isto é, 26% de chance de confusão!

Prof. Valter de Senna, PhD vsenna@terra.com.br

102

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

103

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

104

Algumas distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

105

Exemplo

No jogo da Sena são sorteados 6 números em um conjunto de 50, sem reposição. Ganha quem acertar 4, 5 ou os 6 números. Além disso, é pago prêmio pela sena anterior e posterior. O jogador escolhe 6 números por cartão. Calcule a prob. de se ganhar algum prêmio, para cada cartão jogado.

Prof. Valter de Senna, PhD vsenna@terra.com.br

106

Solução

6 44 6 44 6 44

6 0 5 1 4 23

50 50 50

6 6 6

3x6,29x10-8 + 1,66x10-5 + 8,93x10-4 = 9,10x10-4 ≈ 1/1.000

Prof. Valter de Senna, PhD vsenna@terra.com.br

107

Algumas relações entre as distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

108

Algumas relações entre as distribuições discretas

Prof. Valter de Senna, PhD vsenna@terra.com.br

109

Exemplo

Use a aproximação de Poisson para calcular a prob. de que uma caixa com 100 fusíveis contenha no máximo 2 defeituosos, se 3% dos fusíveis fabricados são defeituosos.

Prof. Valter de Senna, PhD vsenna@terra.com.br

110

Solução

3np

3 23 3

3

.3Prob( 2) 3.

2

.8,5 0,423 42,3%

eX e e

e

top related