aspectos de teoria da decisão e -...

37
de Janeiro - RJ - IMPA/UFRJ - VIII Bienal da Sociedade Brasileira de Matemática - Rio de Janeiro - RJ - IMPA/UFRJ - VIII Bienal da Sociedade Br Aspectos de teoria da decisão e probabilidade subjetiva para o Ensino Básico LAURA RIFO 1 25 e 26 de abril de 2017 1 www.ime.unicamp.br/~laurarifo

Upload: vanquynh

Post on 13-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Aspectos de teoria da decisão eprobabilidade subjetiva para o

Ensino Básico

LAURA RIFO1

25 e 26 de abril de 2017

1www.ime.unicamp.br/~laurarifo

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Dedicado ao professor Sergio Wechsler

que tem me guiado pelo estreito caminhoda coerência na incerteza.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

4

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Sumário

1 Incerteza 51.1 Relembrando o cálculo de probabilidades . . . . . . . . . . . . . 51.2 Variáveis e esperança . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Quanto vale um previsor? . . . . . . . . . . . . . . . . . . . . . . 11

2 Modelando sua incerteza 172.1 Quantos peixes há no lago? . . . . . . . . . . . . . . . . . . . . . 172.2 Mensuração da incerteza . . . . . . . . . . . . . . . . . . . . . . 212.3 Dê seu palpite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4 Regra de escore . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5 Regra de escore como medida . . . . . . . . . . . . . . . . . . . 252.6 Coerência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

6 SUMÁRIO

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Prefácio

Estas notas estão dirigidas especialmente para o atual e para o futuro profes-sor de Matemática do Ensino Básico, mas podem ser úteis para um público geralinteressado no assunto.

A abordagem adotada trata da probabilidade como modelo da informação dis-ponível para quantificar incerteza, e, portanto, relativa ao sujeito que tem essa in-formação, daí o nome de interpretação subjetiva, e do seu uso no auxílio de tomadasde decisão ótimas. Ao usar o termo “ótima”, queremos indicar um procedimentoque maximiza alguma função objetivo, no caso, estamos interessados em reduziros custos esperados das decisões envolvidas, sejam elas previsões ou ações a seremseguidas.

Meu interesse pelo assunto começou ao perceber que na maioria dos livros uti-lizados no ensino há uma aparente desconexão entre o cálculo de probabilidadesclássico (modelo uniforme, binomial, etc), estatística descritiva (histogramas, mé-dias, etc) e inferência estatística (estimação, previsão, etc), e entre estes tópicos ea vida real do aluno.

No entanto, assim como a teoria de conjuntos é a base para a matemática, ateoria da decisão é a base para o pensamento inferencial, compreendendo neste, aconstrução de uma medida de incerteza e de métodos de inferência coerentes.

A condição de coerência é a base para a análise de tomadas de decisão: nãopretendemos afirmar se uma comparação é correta ou errada, mas sim se um con-junto de comparações é coerente ou não. Do mesmo modo, não diremos se umadecisão é correta, mas sim se ela é coerente.

A Teoria da Decisão trata da relação entre eventos e decisões, e esta relação édefinida de maneira precisa e não arbitrária. Esta abordagem é ao mesmo tempomuito liberal e muito restritiva: liberal no sentido em que permite uma ampla gamade preferências, e restritiva no sentido em que estas preferências devem obedecercertas regras (de coerência).

O texto está fortemente baseado nos livros de Blackwell [2] e de Lindley [5],ambos esgotados há alguns anos, mas disponíveis em sebos pela internet. Para oleitor interessado em aprofundar seus conhecimentos na área, recomendo as refe-rências [3, 6], e para um bom resumo do ponto de vista mais aplicado, [1].

1

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2 SUMÁRIO

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Agradecimentos

Aproveito a ocasião para agradecer aos professores Carlos Alberto de BragançaPereira e Sergio Wechsler, do Instituto de Matemática e Estatística da USP, pelasreferências e bch que eles me recomendaram para começar a entender probabili-dade além da medida.

3

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

4 SUMÁRIO

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Capítulo 1

Incerteza

“ ... por que não me deixo levar pelo que for acontecendo?Terei que correr o sagrado risco do acaso. E substituirei o destino pelaprobabilidade.”

– Clarice Lispector, A paixão segundo G.H.

1.1 Relembrando o cálculo de probabilidades

Começaremos o curso com algumas definições e propriedades básicas do con-ceito de probabilidade.

Exemplo 1. Um número é selecionado sem preferência dentre 00, 01, 02, . . . ,98, 99.

Ao usarmos a expressão “sem preferência”, queremos indicar que todos os cemnúmeros têm a mesma chance de serem selecionados. Isto nos permite construir omodelo probabilístico mais básico para os resultados de um experimento: o modeloequiprovável.

Seja S um conjunto finito que contém os todos os resultados possíveis de umexperimento, e seja E um evento qualquer, E ⊂ S. Com o modelo equiprová-vel, a probabilidade de E é proporcional à quantidade de elementos de E. Maisprecisamente, indicando por P (E) a probabilidade de E ocorrer, temos que

P (E) = números de elementos de Enúmeros de elementos de S

. (1.1)

No exemplo, alguns eventos e suas probabilidades são:(a) o primeiro dígito é 0 = {00, 01, 02, 03, 04, 05, 06, 07, 08, 09}: 0.1(b) os dois dígitos são iguais = {00, 11, 22, 33, 44, 55, 66, 77, 88, 99}: 0.1(c) os dois dígitos são diferentes: 0.9(d) o primeiro dígito é maior que o segundo: 0.45(e) o primeiro dígito não é menor que o segundo: 0.55

5

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

6 CAPÍTULO 1. INCERTEZA

(f) o segundo dígito é 1: 0.1(g) a soma dos dígitos é igual a 9: 0.1(h) nenhuma dos dígitos é maior que 3: 0.16(i) ambos os dígitos são maiores que 3: 0.36(j) apenas um dos dígitos é maior que 3: 0.48(k) o primeiro dígito é maior que 3 e o segundo, não: 0.24

Observemos neste exemplo algumas condições gerais que uma probabilidadesatisfaz.

P1. A probabilidade de um evento é um número entre 0 e 1.Se P (E) = 0, dizemos que o evento E é impossível, não pode ocorrer. Noexemplo, “o primeiro e o segundo dígitos são pares e sua soma é ímpar” éum evento impossível.Se P (E) = 1, dizemos que E é um evento certo, tem que ocorrer. Noexemplo, “a soma dos dígitos é não negativa” é um evento certo.

P2. Sejam E e F eventos mutuamente exclusivos, ou seja, se um deles ocorreentão o outro não pode ocorrer. Então a probabilidade de que pelo menosum deles ocorra é igual à soma de suas probabilidades,

P (E ou F ) = P (E) + P (F ) .

No exemplo, consideremos os eventos E =“a soma dos dígitos é igual a4”= {04, 13, 22, 31, 40} e F =“ambos os dígitos são maiores que 6”={77, 78, 79, 87, 88, 89, 97, 98, 99}. Então P (E ou F ) = 5/100 + 9/100 =0.14.

Como caso particular da propriedade (P2), temos que, dado um evento E,P (E) + P (não E) = P (E ou não E) = 1.

Comentário Veja que o primeiro exemplo se refere à chamada distribuição uni-forme em um conjunto finito, levando à típica definição de probabilidade de umevento como a razão (1.1). Mesmo esta não sendo uma condição razoável na maio-ria dos exemplos práticos, a importância desta definição é que ela permite construirmodelos não equiprováveis, como veremos nos exemplos a seguir.

Exemplo 2. Considere duas urnas, cada uma contendo cinco bolas: a urna A tembolas numeradas de 1 a 5, e a urna B, numeradas de 6 a 10. Suponha que uma dasurnas será selecionada sem preferência, e depois será selecionada uma bola dessaurna, também sem preferência. Você ganha um prêmio se a bola selecionada tiverum número divisível por 3.

Com as condições dadas no experimento, todas as bolas numeradas de 1 a 10têm a mesma chance de serem selecionadas. Sendo assim, sua probabilidade deganhar o prêmio é

P (prêmio) = 310 = 0.3 .

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

1.1. RELEMBRANDO O CÁLCULO DE PROBABILIDADES 7

Observe, no entanto, que se você souber que a urna selecionada é a urna A, sua pro-babilidade de ganhar o prêmio é 1/5 = 0.2. Analogamente, se a urna selecionadafor a urna B, sua probabilidade de ganhar o prêmio é 2/5 = 0.4.

Em símbolos, indicamos esta informação adicional a respeito da urna com aseguinte notação:

P (prêmio | urna A) = 0.2 e P (prêmio | urna B) = 0.4 .

Em geral, dados dois eventos E e F , denotamos por P (E | F ) a probabilidadede E condicional em F , o seja, a probabilidade do evento E, sabendo ou supondoque o evento F ocorre. Podemos calcular esta probabilidade usando a relação

P (E | F ) = P (E e F )P (F ) . (1.2)

No exemplo, obtivemos a probabilidade de ganhar o prêmio diretamente usandoa informação sobre a urna selecionada. Denotemos por E o evento “você ganha oprêmio” e por F , o evento “a urna B é selecionada”, de modo que o evento (E e F )contém as bolas numeradas 6 e 9. Usando a igualdade anterior,

P (E | F ) = P (bolas 6 e 9)P (urna B) = 2/10

1/2 = 410 .

Note que, da Equação (1.2), obtemos

P (E e F ) = P (F )P (E | F ) ,

conhecida como regra do produto. Como também temosP (E e F ) = P (E)P (F |E), se usarmos a probabilidade condicional emE, a decisão sobre qual condicionalescolher depende de qual informação temos em um problema dado.

A igualdade anterior nos permite calcular a probabilidade da ocorrência de doisou mais eventos, usando as probabilidades condicionais. A generalização destaregra para três eventos E,F,G é naturalmente o produto

P (E e F e G) = P (E)P (F | E)P (G | E e F ) ,

e analogamente para qualquer coleção E1, E2, . . . , En de eventos.

Exemplo 3. Na sala A, há três pessoas, e na sala B, duas pessoas. Uma das salasé selecionada e depois uma pessoa da sala é selecionada para receber um prêmio.Qual é a probabilidade de você receber o prêmio se você estiver na sala A? E sevocê estiver na sala B?

Se você estiver na sala A, o evento “você recebe o prêmio” ocorre se e somentese ocorrerem os dois eventos: A=“a sala A é escolhida” e E =“você é a pessoaselecionada”. Assim, pela regra do produto,

P (A e E) = P (sala A)P (você é a pessoa selecionada | sala A)

= 12 ×

13 = 1

6 .

A sala B é deixada para o leitor.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

8 CAPÍTULO 1. INCERTEZA

Exemplo 4. Uma associação tem duas modalidades de sócios: R e D. Todo mês,um dos sócios é escolhido, sem preferência, para trazer um novo sócio. Suponhaque um R sempre traz um R, e que um D sempre traz um D. Se, originalmente, aassociação tem um R e um D, qual é a probabilidade de que depois de três mesesela tenha três sócios R?

Para resolver este problema, faremos um esquema de árvore de probabilidade,conforme a Figura 1.1.

A árvore é construída da esquerda para a direita, de modo que cada divisão nosnodos corresponde aos possíveis resultados do mês seguinte, começando no mêszero. O par ordenado próximo a cada nodo indica a atualização do total de sóciosD e R, respectivamente: no mês zero, temos o par (1, 1) indicando um sócio decada modalidade.

As frações em cada galho mostram a probabilidade condicional do nodo se-guinte, supondo que os resultados anteriores são os que aparecem à esquerda domesmo galho. Finalmente, na coluna da direita, aparece a probabilidade de cadagalho (ou seja, de cada sequência possível na escolha dos sócios), obtida pela regrado produto.

Usando esta notação, queremos calcular a probabilidade de que a configuraçãoao fim de três meses seja o par (2, 3), correspondente a dois sócios D e três R.Como esta configuração ocorre para as sequências DRR, RDR e RRD, dos galhos4, 6 e 7, a probabilidade requerida é igual a 1/12 + 1/12 + 1/12 = 1/4, pelapropriedade P2.

E, se você souber que o primeiro novo sócio éD, qual é a probabilidade de quedepois de três meses ela tenha três sócios R?

Neste caso, temos a informação de que ocorre apenas um dos quatro galhossaindo do nodo (2, 1), do primeiro mês. Estes galhos têm probabilidades condi-cionais nesta informação iguais a 1/2, 1/6, 1/6, 1/6, respectivamente, lendo decima para baixo na árvore de probabilidades. Assim, a probabilidade condicionalrequerida é igual a 1/6.

1.2 Variáveis e esperança

Considere um experimento e seja S o conjunto de todos os resultados possíveis.Qualquer regra que faz corresponder um número a cada resultado de um ex-

perimento é chamada variável. O número associado a cada resultado é chamadoo valor da variável. Uma lista com os valores possíveis de uma variável e suasrespectivas probabilidades é chamada distribuição da variável.

Exemplo 1’. No Exemplo 1, seja X a variável “total de dígitos maiores que 3”.Como cada resultado é um número de dois dígitos, os possíveis valores deX são 0,1, 2. A distribuição de X , de acordo com os itens (h,i,j), é a que aparece na Tabela1.1(a).

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

1.2. VARIÁVEIS E ESPERANÇA 9

DR

R

R

R

D

D

R

D

D

R

R

D

D

R

D

(1, 1)1/2

(1, 2) 2/3

(1, 3)3/4

1/4

1/3(2, 2)

1/2

1/2

1/2

(2, 1) 1/3

(2, 2)1/2

1/2

2/3(3, 1)

3/4

1/4

(1, 4)

(2, 3)

(3, 2)

(2, 3)

(2, 3)

(3, 2)

(4, 1)

(3, 2)

probabilidade12 ×

23 ×

34 = 3

12

12 ×

23 ×

14 = 1

12

112

112

112

112

112

312

Figura 1.1: Árvore de probabilidades referente ao Exemplo 4. O par ordenado emcada nodo indica o total de sócios (D,R) no mês correspondente. Em cada galho,indicamos as probabilidades condicionais do nodo seguinte, e, na última coluna,mostramos a probabilidade de cada sequência nos três meses.

Exemplo 4’. No Exemplo 4, seja T o total de sócios R no terceiro mês. Senão for sorteado nenhum R, então T é igual a 1, correspondente ao caso (4, 1) naárvore da Figura 1.1, com probabilidade igual a 3/12 = 1/4; no outro extremo,se os três sorteios forem R, então T é igual a 4, correspondente ao caso (1, 4),com probabilidade 1/4. Os outros dois casos correspondem às configurações finais(3, 2) e (2, 3), cada um com probabilidade também 1/4. Esta distribuição é a que

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

10 CAPÍTULO 1. INCERTEZA

Tabela 1.1: (a) Distribuição de X no Exemplo 1’; (b) Distribuição de T no Exem-plo 4’.

Xv p

0 0.161 0.482 0.36

Tv p

1 1/42 1/43 1/44 1/4

(a) (b)

aparece na Tabela 1.1(b).Para quaisquer duas variáveis, X e Y , denotamos por X + Y a variável que

associa a cada resultado do experimento, a soma dos valores de X e Y associadosa esse experimento. Podemos definir outras operações analogamente: X−Y ,XY ,X2, 3X + 2Y − 7, (X − 2)2, log Y , etc.

Exemplo 5. Suponha que será escolhida, sem preferência, uma das palavras dafrase A ANA FOI DANÇAR. Seja V o total de vogais da palavra escolhida e C,o total de consoantes. Determinaremos as distribuições de C, V , C + V , V 2 e(C−1)2, usando a Tabela 1.2, que mostra os valores de cada uma destas variáveis.

Tabela 1.2: Valores das variáveis do Exemplo 5.

resultado probabilidade C V C + V V 2 (C − 1)2

A 1/4 0 1 1 1 1ANA 1/4 1 2 3 4 0FOI 1/4 1 2 3 4 0

DANÇAR 1/4 4 2 6 4 9

Daqui, a distribuição de V , por exemplo, év p

1 1/42 3/4

. As demais são obtidas

analogamente.Para uma variável qualquer, X , a sua média ou valor esperado é o número,

denotado por E(X), obtido de uma das seguintes maneiras:

1. somando os valores que X associa a cada resultado e ponderados pelas pro-babilidades de cada resultado, P (e),

E(X) =∑

e

X(e)P (e)

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

1.3. QUANTO VALE UM PREVISOR? 11

ou

2. somando os valores de X , v, ponderados pela probabilidade de cada valor,

E(X) =∑

v

vP (X = v) .

Assim, no Exemplo 5, a média de V , calculada pela primeira maneira usandoa Tabela 1.2, é

E(V ) = 1× 14 + 2× 1

4 + 2× 14 + 2× 1

4 = 7× 14 = 1.75 ,

e, pela segunda maneira, usando diretamente a tabela da distribuição de V , é

E(V ) = 1× 14 + 2× 3

4 = 1.75 .

Este exemplo deixa claro que as duas maneiras são equivalentes, pois dado umvalor v de X ,∑

e:X(e)=v

X(e)P (e) =∑

e:X(e)=v

vP (e) = v∑

e:X(e)=v

P (e) = v P (X = v) .

Daqui, somando em v, obtemos a igualdade entre as duas maneiras.Da definição acima, obtemos imediatamente as seguintes propriedades da es-

perança de uma variável. Para X e Y , variáveis, e c, um número real constante,temos que:

E1. E(X + Y ) = E(X) + E(Y );

E2. E(cX) = cE(X);

E3. E(c) = c.

Pergunta Por que sempre calculamos a média de uma variável?

1.3 Quanto vale um previsor?

Exemplo 5’. Suponha que você deve prever o total de consoantes antes da palavraser selecionada. Qual é o seu melhor palpite?

A distribuição do total de consoantes, C, é

v p

0 1/41 2/44 1/4

.

Como 1 é o valor mais provável, este poderia ser um bom palpite para a previ-são.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

12 CAPÍTULO 1. INCERTEZA

Tabela 1.3: Distribuição do custo da previsão no Exemplo 5’, para diversos palpi-tes.

resultado probabilidade C (C − 1)2 (C − 0)2 (C − 4)2 (C − a)2

A 1/4 0 1 0 16 (0− a)2

ANA 1/4 1 0 1 9 (1− a)2

FOI 1/4 1 0 1 9 (1− a)2

DANÇAR 1/4 4 9 16 0 (4− a)2

média 1.5 2.5 4.5 8.5

Suponhamos que há um custo se o palpite estiver errado e que este custo éigual ao quadrado do erro. Neste caso, se o seu palpite for 1, podemos obter adistribuição deste custo na Tabela 1.3. Analogamente, para os palpites 0, 4, ou aqualquer.

Se a previsão para uma variável X for a, um valor real qualquer, o custo de-finido pelo quadrado do erro é chamado perda quadrática da previsão e sua mé-dia, o erro quadrático médio de a como previsor de X , que será denotado porEQM(a;X),

EQM(a;X) = E[(X − a)2

].

Uma pergunta importante é: qual é a previsão com menor EQM?Voltando ao Exemplo 5, na Tabela 1.3, vemos que o EQM de 1 como previsor

de C é igual a 2.5, o de 0, é 4.5, e o de 4, é 8.5. Agora, seja a um valor realqualquer. O EQM de a como previsor de C é

EQM(a;C) =[a2 + (1− a)2 + (1− a)2 + (4− a)2

] 14

=(a− 3

2

)2+ 9

4 ,

cujo ponto de mínimo é a = 3/2. Ou seja, a decisão com menor EQM é a = 1.5,e seu EQM é igual a 9/4 = 2.25 (menor, é claro, que a da previsão a = 1).

Em geral, dada uma variável X , a previsão a de X tem EQM dado por

EQM(a;X) = E[(X − a)2

]= E

[X2 − 2aX + a2

]= E(X2)− 2aE(X) + a2

= [a− E(X)]2 + E(X2)− [E(X)]2 ,

cujo valor mínimo é alcançado quando a = E(X). Neste caso, o EQM de E(X)como previsor de X é igual a

EQM(E(X);X) = E(X2)− [E(X)]2 ,

também conhecido como a variância de X , e denotado por σ2(X).Observação: a raiz quadrada da variância é conhecida como o desvio-padrão

de X ,√σ2(X) =: σ(X).

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

1.3. QUANTO VALE UM PREVISOR? 13

Exemplo 6. Na sala A, há três mulheres cujas alturas são 158cm, 165cm e165cm. Na sala B, há dois homens, de alturas 179cm e 189cm. Uma das duassalas é selecionada, sem preferência, e, desta, uma pessoa é selecionada. Suponhaque você deve prever a altura da pessoa selecionada, de modo que sua perda poruma previsão errada é igual ao quadrado do erro cometido. Qual é a sua melhorprevisão, qual é a distribuição de seu erro quadrático e qual é o seu EQM?

Tabela 1.4: Distribuição do erro quadrático da previsão no Exemplo 6.

Y probabilidade (Y − 172)2 Y 2

158 1/6 (158− 172)2 24964165 1/6 (165− 172)2 27225165 1/6 (165− 172)2 27225179 1/4 (179− 172)2 32041189 1/4 (189− 172)2 35721

média 172 592.33 30176.33

Denotemos por Y a altura da pessoa selecionada. Do anterior, sabemos que, sesupusermos que o custo é dado pelo erro quadrático, a melhor previsão é a médiada variável:

E(Y ) = (150 + 165 + 165)× 12

13 + (179 + 189)× 1

212 = 80 + 92 = 172 ,

cujo erro quadrático médio é

σ2(Y ) = E[(Y − 172)2

]= E(Y 2)− 1722 = 592.33 .

Suponha que, antes de você fazer sua previsão, você pode receber a informaçãosobre qual sala foi selecionada. Qual é a sua melhor previsão se foi a sala A e qualé o seu EQM?

Neste caso, a melhor previsão é a altura média na sala A,

E(Y | sala A) = (158 + 165 + 165)× 13 = 162.67 ,

cujo EQM é

σ2(Y | sala A) = E(Y 2 | sala A)− 162.672 = 10.88 .

Do mesmo modo, se você souber que a sala selecionada foi a sala B, a melhorprevisão, considerando erro quadrático, é

E(Y | sala B) = (179 + 189)× 12 = 184 ,

cujo EQM é

σ2(Y | sala B) = E(Y 2 | sala B)− 1842 = 25 .

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

14 CAPÍTULO 1. INCERTEZA

Suponha que esse EQM represente um custo em reais pelo seu erro de previsão.Assim, se você não tiver nenhuma informação sobre a sala selecionada, sua melhorprevisão tem um custo médio de quase 600 reais. Mas, se você tiver informaçãosobre a sala selecionada, o custo médio de sua melhor previsão para cada caso podeser 11 reais, se for a sala A, ou 25 reais, se for a sala B.

Se alguém oferecer vender a informação sobre a sala selecionada, quanto vocêestá disposto a pagar? Você pagaria 2 reais? 100 reais? 1000 reais?

Tabela 1.5: Distribuição do erro quadrático de U como previsor de Y , no Exemplo6.

X Y probabilidade U (Y − U)2

1 158 1/6 162.67 (158− 162.67)2

1 165 1/6 162.67 (165− 162.67)2

1 165 1/6 162.67 (165− 162.67)2

2 179 1/4 184 (179− 184)2

2 189 1/4 184 (189− 184)2

média 17.9

Veja que, considerando a informação sobre a sala, definimos um novo previsor,não constante, que é função da sala. Mais precisamente, definamos por X a variá-vel que indica a sala escolhida: X = 1, se for a sala A, e X = 2, se for a sala B. Onovo previsor é uma variável U que depende de X da seguinte maneira:

U ={E(Y | X = 1) = 162.67, se X = 1E(Y | X = 2) = 184, se X = 2 ,

com EQM dado por

EQM(U ;Y ) = σ2(Y | X = 1)× P (X = 1) + σ2(Y | X = 2)× P (X = 2)

= 10.88× 12 + 25× 1

2 = 17.9 .

A melhora na previsão de Y , ao usar o previsor (não constante) U , pode serquantificada pelo chamado valor de U como previsor de Y , W (U ;Y ), definidopor

W (U ;Y ) = σ2(Y )− EQM(U ;Y )σ2(Y ) ,

que, no exemplo, vale

W (U ;Y ) ≈ 600− 20600 ≈ 0.97 = 97% .

Em outras palavras, ter a informação sobre a sala para prever Y traz uma economiade aproximadamente 97% no custo da previsão. Isto representa o valor máximoque você deveria pagar para ter a informação exata sobre a sala que será escolhida.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

1.3. QUANTO VALE UM PREVISOR? 15

Comentário. Observe que, com esta definição, a variável de maior valor paraprever Y é a própria variável Y , que tem EQM igual a 0, e valor igual a 1. Ou seja,se você for prever Y , você pagaria até 100% do valor de sua perda esperada para tera informação do valor de Y antes de fazer a previsão. Se U for a previsão constanteigual a E(Y ), seu valor é igual a 0; e se U for qualquer constante diferente deE(Y ), seu valor é negativo. Ou seja, neste caso, a média de Y é sua melhorprevisão.

Exemplo 5”. Esta última observação fica mais clara no Exemplo 5, onde o valorda previsão constante U = 1 é

W (U ;Y ) = 2.25− 2.52.25 = −0.11 < 0 .

Mas poderíamos pensar em um previsor não constante e verificar se seu valor é

Tabela 1.6: Distribuição do erro quadrático de Z = E(C | V ) como previsor deC, no Exemplo 5.

V C probabilidade Z (C − Z)2

1 0 1/4 0 (0− 0)2

2 1 1/4 2 (1− 2)2

2 1 1/4 2 (1− 2)2

2 4 1/4 2 (4− 2)2

média 1.5

positivo. Por exemplo, considere a variável V , o total de vogais da palavra selecio-nada, e o previsor Z para C igual à variável E(C | V ).

De acordo com a Tabela 1.6, temos que EQM(Z;C) = 1.5 e, portanto, ovalor de Z como previsor de C é

W (Z;C) = 2.25− 1.52.25 = 1/3 ,

que indica uma economia de em torno de 33.3%.

Comentário. Em geral, dadas duas variáveis, X e Y , o previsor U = E[Y | X]é a melhor função de X para prever Y . Uma pergunta natural que surge é: seestivermos interessados em algum tipo específico de função de X , qual delas é amelhor como previsor para Y ? Por exemplo, qual é a função linear em X , aX + b,com menor EQM como previsor de Y ? Ou, em geral, qual é a função linear emX1, X2, . . . , Xn, a1X1 +a2X2 + · · ·+anXn +b, com menor EQM como previsorde Y ?

A resposta a estas perguntas foge do escopo deste curso, mas o leitor interes-sado pode estudar o assunto em [2, 4], por exemplo.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

16 CAPÍTULO 1. INCERTEZA

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Capítulo 2

Modelando sua incerteza

“ - Me diga uma última coisa - disse Harry - Isto é real? Ou esteveacontecendo apenas em minha mente?(...)- Claro que está acontecendo em sua mente, Harry. Mas por que istosignificaria que não é real? ”

– JK Rowling, As relíquias da morte.

2.1 Quantos peixes há no lago?

Suponha que o total, T , de peixes em um lago é desconhecido, e, por sim-plicidade, suponha que este total é pequeno, podendo ser um dos valores 1, 2 ou3.

Você participará de um jogo em que deve decidir se o total de peixes é ou nãoigual a 3, recebendo um prêmio se tomar a decisão correta.

Queremos responder às perguntas: Qual é o melhor procedimento de decisão equal é a sua chance de ganhar o prêmio com este procedimento?

Suponha, adicionalmente, que você tem alguma informação prévia sobre olago, que lhe permite atribuir uma distribuição para T . Por exemplo, com estainformação, você poderia concluir que é mais provável que o lago tenha três pei-xes, do que um ou dois, atribuindo probabilidades 0.2, 0.2 e 0.6, para T igual a1, 2 e 3, respectivamente. Esta distribuição formada somente pela sua experiên-cia ou informação disponível é chamada sua distribuição a priori sobre T , e serádenotada por π.

De acordo com as suas probabilidades, sua melhor decisão é afirmar que hátrês peixes no lago, T = 3, pois este evento é mais provável de ocorrer do que oevento T 6= 3, com probabilidade de você ganhar o prêmio igual a 0.6.

Agora suponha que as regras do jogo permitem que você realize um experi-mento auxiliar para tomar sua decisão: pegar um dos peixes do lago, marcá-lo e

17

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

18 CAPÍTULO 2. MODELANDO SUA INCERTEZA

devolvê-lo ao lago. Depois de um tempo, pegar novamente um peixe do lago everificar se este peixe está ou não marcado.

SejaX a variável que representa o resultado do experimento, sendo queX = 0indica que o segundo peixe não está marcado, e X = 1 indica que o segundo peixeestá marcado.

Veja que o valor de T é desconhecido no problema e o valor de X será conhe-cido depois de realizado o experimento. Em outras palavras, nossa incerteza sobreX acaba com a realização do experimento, enquanto que a de T provavelmentecontinuará existindo.

Nosso objetivo com o experimento é reduzir o grau de incerteza sobre T , ousobre a veracidade do evento T = 3.

Na linguagem estatística usual, T é chamado o parâmetro sobre o qual quere-mos fazer alguma afirmação probabilística (no caso, queremos a probabilidade deque T seja igual a 3) e X é chamada a observação ou conjunto de dados.

A relação entre estas duas variáveis é que cada valor possível i de T permiteconstruir um modelo probabilístico para o experimento, dado pela distribuiçãocondicional P (X | T = i). Para o exemplo, a distribuição condicional de X dadoT , para cada valor de T , é a mostrada na Tabela 2.1. Em cada linha, temos

P (X = 0 | T = i) e P (X = 1 | T = i) ,

para i = 1, 2, 3. Na primeira coluna, a tabela mostra sua distribuição a priori paraT .

Tabela 2.1: Na coluna da esquerda, a distribuição a priori, π, do total T de peixesno lago. Na terceira e quarta colunas, distribuição da variável X , para cada um dospossíveis valores i de T , P (X = j | T = i), para j = 0, 1.

π T(X | T )

X = 0 X = 1 soma0.2 1 0 1 10.2 2 1/2 1/2 10.6 3 2/3 1/3 1

soma 1

Temos, assim, duas distribuições: a distribuição a priori de T , P (T = i) parai = 1, 2, 3, e as distribuições condicionais paraX dado T , P (X = j | T = i), paraj = 0, 1. Com estas distribuições, pela regra do produto, obtemos a distribuiçãoconjunta de T e X , ou seja, obtemos a probabilidade de todos os eventos da forma(T = i,X = j), para i = 1, 2, 3 e j = 0, 1, conforme mostrado na Tabela 2.2,

P (T = i,X = j) = P (T = i)P (X = j | T = i) .

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.1. QUANTOS PEIXES HÁ NO LAGO? 19

A última linha mostra a distribuição marginal de X . Esta distribuição marginal deX entrega a probabilidade, não condicional em T , de cada um dos resultados deX antes de realizar o experimento. Do mesmo modo, a última coluna apresenta adistribuição marginal de T , não condicional emX , que é exatamente a distribuiçãoa priori de T (a distribuição de T antes de pensar em realizar o experimento).

Tabela 2.2: Na terceira e quarta colunas, distribuição conjunta das variáveis T eX , para cada um dos possíveis valores i de T , e j de X , P (T = i,X = j).

π T(T,X)

X = 0 X = 1 soma0.2 1 0 0.2 0.20.2 2 0.1 0.1 0.20.6 3 0.4 0.2 0.6

soma 0.5 0.5 1

Suponha que você realiza o experimento e obtém X = 1, o segundo peixe estámarcado. Isto entrega uma informação nova sobre o total de peixes no lago, quese reflete na distribuição de T , agora condicional na informação sobre X . Estadistribuição condicional é chamada distribuição a posteriori de T , pois é obtidaposteriormente à realização do experimento.

Tabela 2.3: Na última coluna, a distribuição a posteriori da variável T , para cadaum dos possíveis valores i de T e j de X , P (T = i | X = j).

π T(T | X)

X = 0 X = 10.2 1 0 0.40.2 2 0.2 0.20.6 3 0.8 0.4

soma 1 1 1

A Tabela 2.3 entrega esta distribuição, obtida por

P (T = i | X = j) = P (T = i e X = j)P (X = j) ,

para cada i = 1, 2, 3, e cada um dos possíveis resultados j do experimento. Assim,obtemos que: na terceira coluna, se X = 0, as probabilidades para T = 1, 2, 3 são,respectivamente, 0, 0.2, 0.8; e, na quarta coluna, se X = 1, elas são, respectiva-mente, 0.4, 0.2, 0.4.

Este resultado quer dizer, por exemplo, que, se o segundo peixe estiver mar-cado, a probabilidade de que haja um único peixe no lago dobra (passa de 0.2 para

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

20 CAPÍTULO 2. MODELANDO SUA INCERTEZA

0.4), mas, se o segundo peixe não estiver marcado, esta probabilidade passa a serigual a zero.

Voltemos ao problema de decidir afirmar que T = 3 ou não. Para isso, anali-saremos a melhor decisão para cada valor possível do experimento.

Se X = 0, a probabilidade a posteriori de T = 3, P (T = 3 | X = 0), é iguala 0.8, e, portanto, a melhor decisão é afirmar que T = 3, com probabilidade iguala 0.8 de ganhar o prêmio.

Se X = 1, a probabilidade a posteriori de T = 3, P (T = 3 | X = 1), é iguala 0.4 < 0.5, e, portanto, a melhor decisão é afirmar que T 6= 3, com probabilidadeigual a 0.2 + 0.4 = 0.6 de ganhar o prêmio.

Como cada resultado é igualmente provável, P (X = 0) = P (X = 1) = 0.5,então a probabilidade de tomar a decisão correta e ganhar o prêmio é

P (prêmio) = P (prêmio e X = 0) + P (prêmio e X = 0)= P (X = 0)P (prêmio | X = 0) + P (X = 1)P (prêmio | X = 1)= P (X = 0)P (T = 3 | X = 0) + P (X = 1)P (T 6= 3 | X = 1)

= 12 0.8 + 1

2 0.6 = 0.7 .

Ou seja, usando a informação do experimento, a probabilidade prevista de ganharo prêmio é 0.7, maior que a obtida somente com a informação a priori, cuja proba-bilidade era 0.6.

Outra forma de obter esta probabilidade, de você tomar a decisão correta, éatravés das probabilidades conjuntas da Tabela 2.2. Os pares (T,X) indicadospelo seu critério de decisão são (0, 3), (1, 1) e (1, 2), cuja probabilidade total é0.4 + 0.2 + 0.1 = 0.7.

Em resumo, seu critério de decisão e suas probabilidades de ganhar o prêmiosão:

Se o peixe estiver marcado, decida T 6= 3 - probabilidade de ganhar: 0.6.Se o peixe não estiver marcado, decida T = 3 - probabilidade de ganhar: 0.8.Probabilidade de ganhar o prêmio com esta estratégia: 0.7.

Pergunta Na Tabela 2.2, qual é a distribuição marginal de X se a distribuição apriori de T fosse (0.5, 0.2, 0.3) no lugar de (0.2, 0.2, 0.6)? Interprete o resultado.

Pergunta Usando o que vimos na primeira aula, qual é sua melhor estimativapara T e seu EQM, antes de realizar o experimento? E para cada resultado doexperimento? Qual é o EQM total, ao usar o experimento para prever T ? Qual é ovalor do experimento?

Comentário. Neste exemplo, para resolver um problema de decisão, utilizamoso que chamamos de distribuição a priori da variável de interesse (ou parâmetro).Esta distribuição quantifica o grau de incerteza do decisor a respeito da variávelconsiderada, de acordo com a sua informação. Na próxima seção, veremos comoesta quantificação pode ser feita.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.2. MENSURAÇÃO DA INCERTEZA 21

2.2 Mensuração da incerteza

Em português, temos diversas palavras para qualificar a incerteza de um evento:verossímil, provável, crível, plausível, possível, tem pouca chance, tem muitachance, etc. Nosso objetivo é descrever a incerteza de um evento da forma maissimples que conhecemos para ordenar coisas: com números. Faremos isto de modoque quanto maior o número atribuído, mais provável é que o evento ocorra.

Do mesmo modo que para a realização de mensurações físicas, a obtenção podeser complicada na prática, mas a ideia é simples: qualquer mensuração é feitacom relação a um padrão. O comprimento é descrito em termos do comprimentode onda da luz amarela de sódio; o tempo, em termos da oscilação de um cristal.

Observe que os padrões mencionados não são usados na prática: você nãomede o comprimento de uma mesa usando uma luz de sódio, mas sim com umafita métrica ou similar. Ao medir a incerteza também não usaremos o padrão parafins práticos, mas ele servirá para definir e estabelecer as regras que a incertezadeve obedecer.

Para construir um padrão, consideraremos uma urna contendo 100 bolas tãosimilares quanto possível, exceto que algumas são brancas e outras pretas. Umabola será extraída da urna de tal maneira que você considere que cada uma das 100bolas tem a mesma chance de ser extraída. Considere o evento incerto B de quea bola extraída é branca. A incerteza sobre B depende, portanto, de quantas bolasbrancas há na urna.

Se tivermos b bolas brancas (e portanto 100 − b bolas pretas), a probabilidadedo evento B é definida como b/100 ou b%. Este é o padrão que será usado paratodos os eventos incertos, para diferentes valores de b, variando de 0 até 100.

Por exemplo, consideremos o evento E de que choverá amanhã, e suponha quevocê receberá um pequeno prêmio se o evento ocorrer, sem nenhum tipo de perdacaso não chova. Agora suponha que você receberá o mesmo prêmio se uma bolabranca for sorteada de uma urna nas condições que descrevemos acima.

Ou seja, temos dois jogos: um relacionado ao evento E, chuva, e o outro a B,bola branca, ambos com o mesmo tipo de premiação.

Se você puder optar por apenas um dos jogos, qual você prefere?Claramente, isto depende da quantidade de bolas brancas na urna. Se não hou-

ver nenhuma bola branca, é melhor apostar na chuva; no outro extremo, se sóhouver bolas brancas, a urna é melhor. Em geral, quanto mais bolas brancas hou-ver na urna, melhor ela é, neste contexto. Daqui, podemos concluir que deve existirum número, digamos b, tal que você é indiferente entre os dois jogos: se houverb+ 1 bolas, a urna é melhor, e se houver b− 1, a ocorrência de E é melhor.

Como os dois jogos são agora equivalentes em todos os aspectos, dizemos quea probabilidade do evento E é também b%. O valor de b é simplesmente o númeroque deixa você indiferente entre os dois jogos.

Comentário O termo “aposta” não é usado aqui como usualmente, em termosde apostas em corridas ou jogos de azar, etc, mas sim como reflexo de sua opinião

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

22 CAPÍTULO 2. MODELANDO SUA INCERTEZA

ou informação na ocorrência de um evento. Todos nós lidamos com eventos incer-tos, como “chove amanhã”, e devemos agir em face dessa incerteza - devo levarguarda-chuva? Neste sentido, todos nós fazemos apostas todos os dias, e este é osignificado atribuído.

O prêmio, neste caso, não precisa ser ganho; ele apenas é considerado. Oconceito essencial é a ação em face da incerteza: como você age ao escolher entreos eventos B e E? (O total de bolas igual a 100 foi dado por simplicidade, masqualquer total N poderia ter sido usado.)

No exemplo da chuva, em algum momento (depois de amanhã) saberemos seo evento E ocorreu ou não; no entanto, para outros eventos, é possível que nãotenhamos essa informação disponível.

Observe também que esta definição de probabilidade, através de um padrão,não usa repetição de um experimento: a bola é extraída uma única vez (depoisdisso, tanto a urna quanto as bolas poderiam ser destruídas). Ela é o resultado deum exercício mental, e não de uma realização física do ato de extrair uma bolinhada urna.

Em particular, a probabilidade derivada com referência a um padrão dependede você, da pessoa que está fazendo o julgamento,(a) sobre as bolas serem igualmente prováveis de serem extraídas, e(b) sobre o mérito relativo entre os dois jogos.

Dizemos que a probabilidade é pessoal (subjetiva): depende da pessoa que estájulgando os experimentos. Ela reflete a relação entre a pessoa e o mundo em queela está e no qual ela pensa. Duas pessoas diferentes podem perfeitamente terprobabilidades diferentes para o mesmo evento.

Esta diferença pode ser justificada considerando a diferença entre as informa-ções que cada pessoa tem a respeito do evento; ou seja, se duas pessoas tiverem amesma informação, elas deveriam concordar sobre a probabilidade. Neste sentido,há tentativas de definir probabilidades impessoais para um evento E, isto é, pro-babilidades que deveriam ser consensuais com base na mesma informação (teoriaobjetivista).

Um ponto importante nesta discussão é saber como a probabilidade muda coma informação.

Para uma pessoa com uma informação H (de história) sobre um evento E,poderíamos denotar corretamente a probabilidade dessa pessoa para o eventoE porp(E | H). Para facilitar a notação, quando não houver necessidade, denotaremosesta probabilidade simplesmente por p.

2.3 Dê seu palpite

Consideremos um evento E, uma informação H e uma probabilidade para Econhecendo H , p(E | H) ou simplesmente p.

Por exemplo, se E é o evento de obter cara no lançamento de uma moeda, vocêpoderia pensar que p = 0.5; para o evento de que a França tem um território maior

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.3. DÊ SEU PALPITE 23

que a Espanha, você poderia atribuir p = 0.3.Em termos práticos, o que significa que esta probabilidade esteja correta?Esta pergunta faz sentido quando falamos do comprimento de uma janela.

Como podemos respondê-la para um evento?Uma resposta aceitável, pelo menos para alguns eventos, pode ser construída

da seguinte forma: como um evento é verdadeiro ou falso, podemos dizer que umamensuração de sua incerteza é boa se ela atribui probabilidade grande para umevento que resulta ser verdadeiro, e atribui probabilidade pequena para um eventoque resulta ser falso. Isto funciona sempre que pudermos verificar a veracidade doevento.

Consideremos os seguintes exemplos, para testar o seu julgamento sobre a ve-racidade de cada afirmação. Cada evento tem uma alternativa tal que uma das duasafirmações está correta com certeza.

1. O compositor Michael Haydn foi o pai (irmão) de Joseph Haydn, o compo-sitor mais famoso.

2. Claret é o nome inglês para o vinho de Bordeaux (Burgundy).

3. Charlotte (Emily) Bronte escreveu Jane Eyre.

4. O hino nacional mais antigo é o da Grã-Bretanha (França).

5. A viola moderna tem 5 (4) cordas.

6. A ilha de Nova Bretanha fica a leste (oeste) da ilha de Papua-Nova Guiné.

7. Roma, na Itália, está mais ao sul (norte) que Washington DC, nos EstadosUnidos.

8. O perigeu é o ponto mais afastado (próximo) da terra na órbita de um satéliteartificial.

9. Nos anos 70, a produção mundial de trigo foi em torno de 5 (9) bilhões detonéis.

10. A Goodyear (Firestone) foi quem criou o processo de vulcanização que tor-nou possível o uso comercial da borracha.

O exercício consiste em atribuir uma probabilidade para os eventos sem pa-rênteses. Se você souber que uma afirmação é correta, então você deveria atribuirprobabilidade 1; se você souber que uma afirmação é errada, a probabilidade atri-buída deveria ser 0. Para as demais, sua probabilidade deveria ser um número entre0 e 1. Dê o seu melhor palpite.

Depois de comparar sua probabilidade p com a resposta correta, você deveriase sentir bem se atribuiu valores altos para eventos corretos, e valores pequenospara eventos falsos. No extremo, você achará que cometeu um erro feio se atribuiu

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

24 CAPÍTULO 2. MODELANDO SUA INCERTEZA

probabilidade 1 para um evento falso: você pensou que ele era verdadeiro, masna verdade ele era falso. Da mesma forma, se atribuiu p = 0 para um eventoverdadeiro.

Menos extremo, atribuir p = 0.8 para um evento verdadeiro fará você se sentirmelhor que atribuir p = 0.6. Quão melhor?

2.4 Quão bom é seu palpite?

Uma forma de responder a esta pergunta é usando uma regra de escore (scoringrule). Esta é uma regra que atribui uma nota a cada valor p dependendo de se oevento é verdadeiro ou falso. Esta nota mede a qualidade da mensuração p.

Veremos um caso particular, a regra de escore quadrática, definida por (1−p)2

se o evento for verdadeiro, e por p2, se for falso.Este escore pode ser visto como uma penalização, quanto menor o escore me-

lhor foi seu julgamento. Observe que, na verdade, o escore quadrático é o erroquadrático da sua previsão para a veracidade do evento. Em outras palavras, trata-mos a atribuição de uma probabilidade a um evento como uma tomada de decisãocom uma certa função de perda (no caso deste exemplo, perda quadrática).

É usual multiplicar o escore por 100 e ignorar os decimais. Assim, considereum evento que posteriormente resulta ser verdadeiro. A atribuição do valor p = 1significa que você estava correto em pensar que ele era verdadeiro, sem incorrer empenalização nenhuma. A atribuição do valor p = 0.9 significa que você tinha quasecerteza de que o evento era verdadeiro, tem um escore pequeno (1− 0.9)2 = 0.01ou, multiplicando por 100, igual a 1. Um valor menor, p = 0.7, tem escore 9. Aopinião de que o evento tinha a mesma probabilidade de ser verdadeiro ou falso,p = 0.5, tem um escore maior, igual a 25. Pensar que o evento era falso, p = 0,tem o escore mais alto, igual a 100.

A Tabela 2.4 entrega os escores quadráticos para diversos valores de p, emambos os casos, do evento ser certo ou de ser falso.

probabilidade 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0atribuídaevento verdadeiro 100 81 64 49 36 25 16 9 4 1 0evento falso 0 1 4 9 16 25 36 49 64 81 100

Tabela 2.4: Regra de escore quadrática, para diversas probabilidades atribuídas, seo evento for verdadeiro (linha 2), ou se o evento for falso (linha 3).

Usando os valores da tabela, calcule seu escore para cada afirmação e some osvalores. Como você se saiu?

Veja que uma boa pontuação depende de dois aspectos: sua habilidade emexpressar sua incerteza numericamente, e de quanta informação você tem. Umapessoa com mais conhecimento e boa memória tem maior chance de se sair melhorque alguém com pouco conhecimento do assunto.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.5. REGRA DE ESCORE COMO MEDIDA 25

Para ter uma ideia do que é um escore razoável, vejamos alguns casos extremos.Se todas as respostas forem conhecidas e todas estiverem corretas, o escore

total obtido é 0; se todas estiverem erradas, há uma penalidade de 1000. Estes sãoos limites. Agora, suponha que todas as opções são indiferentes para você, ou quevocê acha que o exercício é ridículo; você poderia então fazer duas coisas:(a) atribuir p = 0.5 para cada afirmação, ou(b) chutar, colocando p = 1 para as que você chuta como verdadeiras, e p = 0 paraas outras.

O primeiro procedimento dá escore 25 para cada afirmação, com escore totaligual a 250. O segundo dá escore 0 ou 100 para cada evento e, se metade estivercorreta (suposição razoável ao chutar), o escore total é 500.

Imediatamente podemos perceber que atribuir p = 0.5 é uma estratégia muitomelhor, com metade do escore obtido, do que chutar.

Assim, ao fazer o exercício, você não deveria ter um escore maior que 250,dado que você tem alguma informação sobre os eventos.

Analisando os escores individuais, podemos perceber o que a regra quadráticaestá fazendo.

Se um evento for verdadeiro, um valor de p acima de 0.5 dará um escoremodesto; são os valores pequenos de p que darão a maior contribuição. Assim,p = 0.7 resulta em um escore igual a 9, mas p = 0.3 tem escore 49.

A razão para não selecionar valores extremos de p, próximos de 0 ou de 1, é queeles resultam em penalidades também extremas se a verdade não estiver na direçãodo que você pensava. Alguém que tenha muita confiança em sua própria opinião,mas que estiver errado, terá um enorme 100 se atribuir p = 1, mas somente 81,uma redução de 19, se atribuir p = 0.9. Inversamente, se ele estiver correto, aredução no escore que ele obtém quando p vai de 0.9 para 1, é de apenas 1. Emoutras palavras, vale a pena ser algo cauteloso.

Por outro lado, ser cauteloso demais também não é interessante. Considerealguém que pensa que o evento é verdadeiro mas não tem certeza absoluta, atri-buindo p = 0.6. Se ele estiver correto, seu escore será 16, mas poderia ter sidoreduzido quase pela metade, para 9, se ele tivesse atribuído p = 0.7.

Uma pessoa informada, com pouca confiança, dará valores próximos de p =0.5 na direção correta. Seu escore poderia ser reduzido se ela se afastasse aindamais de 1/2. Uma pessoa confiante irá para os extremos de p, o que será bom sesua confiança for justificada, mas será um fracasso se não.

2.5 A regra de escore como auxílio na atribuição de umaprobabilidade

Levando em conta a análise anterior, tente agora as próximas perguntas. Possi-velmente seu escore melhorará nesta segunda tentativa, a menos que estas questõessejam mais difíceis para você, por exemplo.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

26 CAPÍTULO 2. MODELANDO SUA INCERTEZA

1. Johann Strauss o jovem (o velho) escreveu a valsa Danúbio Azul.

2. Hock é o nome inglês para alguns vinhos da Alsácia (Alemanha).

3. O diprotodonte foi extinto há 45 (25) mil anos.

4. A batata foi introduzida na Europa proveniente da China (América).

5. O oboé moderno tem uma palheta simples (dupla).

6. Guiana é o nome atual da Guiana Britânica (Holandesa).

7. Santiago do Chile está a oeste (leste) de Nova York, USA.

8. A temperatura média da superfície de Vênus é em torno de 450oC (250oC).

9. Em torno de 22% (15%) da população mundial é muçulmana.

10. O primeiro processo econômico para fazer aço foi criado por Bessemer (Kelly).

Como exemplo de aplicação, a regra quadrática foi usada nos Estados Uni-dos no treinamento de previsores do clima. O evento considerado era “choveráamanhã” em um certo lugar, e ao previsor era pedida a sua probabilidade. Esteprocedimento se repetia por um mês ou mais, registrando o escore quadrático total.Quanto melhor o meteorologista, menor seu escore. Este treinamento se refletenas previsões entregues na televisão, que frequentemente são da forma “a proba-bilidade de chuva para amanhã é de 85%”, significando p = 0.85. O treinamentopoderia ser ainda melhor, levando em conta que as pessoas nem sempre enten-dem o que significa probabilidade; conta-se que um dos previsores disse que istosignificava que choveria em 85% da área coberta pela emissora de TV.

No Brasil, assim como em vários outros países, a ideia de probabilidade lamen-tavelmente não é usada, e a previsão do tempo é tipicamente entregue em termosvagos do tipo “há possibilidades de pancadas de chuva isoladas”, ou “amanhã cho-verá em toda a região”.

O costume de fazer afirmações como “vai chover” quando na verdade a si-tuação é de incerteza apenas alimenta a ignorância das pessoas com respeito aoconceito de probabilidade. O hábito de substituir a incerteza por asserções definiti-vas reflete o profundo desconforto com a incerteza e o desejo de sentir que estamosno controle, sabendo o que irá acontecer. Este hábito é ensinado desde a escola,onde somos obrigados a escolher a alternativa correta, no lugar de, por exemplo,colocar nossa probabilidade para cada alternativa.

Pergunta Considere o evento “obter face 5 ou 6” no lançamento de um dado e-quilibrado. Para as estratégias abaixo, determine o escore quadrático médio obtidoem 27 lançamentos do dado, quando você faz as seguintes atribuições de probabi-lidade.(a) para cada lançamento, a sua probabilidade atribuída é p = 0.3;

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.6. COERÊNCIA 27

(b) em 1/3 dos lançamentos, sua probabilidade é p = 1 e, no restante 2/3 dos lança-mentos, é p = 0;(c) para cada lançamento, como você não sabe o que irá ocorrer, a sua probabili-dade é p = 0.5.Defina outra estratégia, diferente das anteriores, e determine seu escore quadráticomédio.1

2.6 Coerência

No primeiro capítulo destas notas, apresentamos as condições (P1) e (P2) queuma probabilidade satisfaz. Na definição axiomática de uma medida de probabili-dade, estas condições são conhecidas como Axiomas de Kolmogorov, a partir dosquais se constrói todo o restante da teoria.

No contexto da Teoria da Decisão, no entanto, um dos conceitos primitivos é ode coerência, com o qual as afirmações (P1) e (P2) são demonstradas como sendocondições necessárias que uma medida de incerteza deve satisfazer.

De fato, na própria construção do padrão, ao comparar um evento qualquer Ecom um evento B relacionado com bolas em uma urna, estamos impondo implici-tamente uma condição de coerência no processo de comparação.

Por exemplo, sejam E1, E2, E3, eventos, tais que E1 é mais provável que E2e E2 mais provável que E3, então E1 deve ser mais provável que E3. (Faça aprova deste fato usando o padrão.) Esta última comparação é dita ser coerente comas outras duas. Se esta condição de coerência falhasse, poderíamos ter a seguintesituação: uma pessoa acha queE1 é mais provável queE2 e queE2 é mais provávelque E3, mas que E3 é mais provável que E1. Suponha que ela recebe um prêmiose E3 ocorrer, e que não recebe nada em caso contrário. Então, pela segundacomparação, ela poderia preferir deixar a aposta em função de E2: ela pagaria umacerta quantidade de dinheiro para ter E3 trocado por E2. O mesmo argumento paraa primeira comparação levaria a concluir que ela pagaria uma certa quantidade dedinheiro para ter E2 trocado por E1. Finalmente, pela terceira comparação, elapagaria novamente para ter E1 trocado por E3. Ela está de volta à aposta inicial ecom menos dinheiro do que no começo. Este ciclo poderia se repetir novamente,de modo que a pessoa incoerente vire uma máquina perpétua de fazer dinheiro.

Consideremos agora um eventoE e a sua probabilidade paraE, de acordo comsua informação, p(E). Mostraremos que a propriedade (P1) é uma consequênciade nossa construção, seja através de um padrão, seja pela regra de escore.

Lei da convexidade Dado um evento E, 0 ≤ p(E) ≤ 1.Esta lei é imediata da construção através de um padrão, já que a proporção de

bolas na urna é necessariamente um valor entre 0 e 1. No entanto, não é tão óbvia

1 Resposta para as 10 afirmações da página 23: F, V, V, V, F, V, F, F, F, V; e da página25: V, F, V, F, F, V, F, V, V, F.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

28 CAPÍTULO 2. MODELANDO SUA INCERTEZA

assim quando usamos a construção via regra de escore, e sua demonstração expõeoutro aspecto de coerência.

Mostraremos que é um absurdo escolher qualquer número fora do intervalo[0,1]. Suponha que, por exemplo, é atribuído p = 2. Se E for verdadeiro, o escoreé (2 − 1)2 = 1, ou 100, e se E for falso, o escore é (2 − 0)2 = 4, ou 400. Sefor atribuído p = 1, os respectivos escores são 0 e 100. Em ambos os casos, Everdadeiro ou E falso, o escore é reduzido, e portanto a atribuição p = 1 é melhorque p = 2. O mesmo argumento serve para qualquer atribuição do valor de pmaior do que 1. Por simetria, a atribuição p = 0 é melhor do que qualquer valormenor que zero. O mesmo não ocorre para p entre 0 e 1, onde, mudar o valor de p,aumenta a penalidade em um caso e a diminui, no outro. Portanto, só faz sentidoconsiderar 0 ≤ p ≤ 1.

Analisemos o princípio apontado. Olhemos para a escolha de p como umadecisão. Seja d2 a decisão de usar p = 2, e d1, a de usar p = 1. Então o resultadode d2 quando E for verdadeiro é pior que o de d1; o mesmo acontece quando E forfalso; ou seja, d2 é pior que d1 independentemente de E, e portanto d2 é pior qued1 quando E é incerto. Isto é chamado o Princípio da Coisa Certa (Sure-thingPrinciple): se d2 é pior que d1 quando E for verdadeiro e quando E for falso, entãod2 é pior que d1 quando E é incerto. Este é um segundo exemplo de coerênciaentre julgamentos.

Analogamente à condição (P1), mostramos que a condição (P2) e a regra doproduto são consequência da condição de coerência.

Lei da soma Consideremos dois eventos, E1 e E2, mutuamente exclusivos, e oevento (E1 ou E2), que ocorre se e somente se pelo menos um dos dois ocorre.Suponha que você atribui as probabilidades p(E1 | H) e p(E2 | H), a partir damesma informação. A lei da soma diz que, neste caso,

p(E1 ∪ E2 | H) = p(E1 | H) + p(E2 | H) .

A prova desta afirmação usando um padrão é imediata: considere uma urnacom bolas de cores, preta, azul ou branca. Seja E1 o evento “extrair uma bolapreta” e E2 o evento “extrair uma bola branca”. Então a probabilidade de quepelo menos um dos dois evento ocorra é proporcional ao total de bolas pretas oubrancas.

A prova usando regra de escore é um pouco mais trabalhosa, mas segue tambémo Princípio da Coisa Certa: suponha que a soma das probabilidades é menor que aprobabilidade de (E1 ou E2) e chegue a uma contradição. O mesmo vale ao suporque a soma das probabilidades é maior.

Para perceber que esta é uma condição de coerência, suponha que você atribuiprobabilidades p(E) = 0.2 e p(EC) = 0.7, para um dado evento E.

De acordo com a primeira afirmação (p(E) = 0.2), você deveria considerarjusto fazer a aposta: receber um valor a > 0 para pagar 4a se E ocorrer (e ficarcom a se E não ocorrer).

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

2.6. COERÊNCIA 29

Similarmente, para p(EC) = 0.7, você aceitaria receber um valor b para pagar3b/7, se EC ocorrer (e ficar com b se E ocorrer).

Suponha que ambas as apostas são feitas por você, com a = 2 e b = 7. Então,se E ocorrer, você perde 8 da primeira, e ganha 7 da segunda, perdendo 1. Se Enão ocorrer, você ganha 2 da primeira, e perde 3 da segunda, novamente perdendo1.

Esta situação incoerente, de combinar apostas que levam a perder dinheiro comcerteza, é chamada Dutch book. Ela somente pode ser evitada estabelecendo pro-babilidades coerentes.

As demais leis conhecidas de probabilidade: lei da probabilidade total, regrado produto, regra de Bayes, etc, são deixadas como exercício para o leitor.

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

30 CAPÍTULO 2. MODELANDO SUA INCERTEZA

VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

a-R

iode

Jane

iro

-RJ

-IM

PA/U

FRJ

-VII

IBie

nald

aSo

cied

ade

Bra

sile

ira

deM

atem

átic

aR

iode

Jane

iro-

RJ

-IM

PA/U

FRJ

-

Referências Bibliográficas

[1] BEKMAN, O.R., COSTA NETO, P.L.O. Teoria estatística da decisão. Ed.Edgard Blücher, 2009.

[2] BLACKWELL, D. Estatística básica. Editora da USP e McGraw-Hill do Bra-sil, 2a edição, 1975.

[3] DE GROOT, M. Optimal statistical decisions. Wiley, 2004.

[4] FREEDMAN, D., PISANI, R., PURVES, R. Statistics. Norton, 1997.

[5] LINDLEY, D.V. Making decisions. Wiley, 1985.

[6] PRATT, J.; RAIFFA, H.; SCHLAIFER, R. Statistical decision theory. MITPress, 1995.

31