sandro m arcio da silva preto - repositorio.unicamp.br€¦ · sandro m arcio da silva preto...

Universidade Estadual de CampinasInstituto de Filosofia e Ciencias Humanas

Sandro Marcio da Silva Preto

Logica, Probabilidade eConsequencia

Campinas

2015

Agência(s) de fomento e nº(s) de processo(s): CNPq, 131956/2013-2

Ficha catalográficaUniversidade Estadual de Campinas

Biblioteca do Instituto de Filosofia e Ciências HumanasCecília Maria Jorge Nicolau - CRB 8/3387

Preto, Sandro Márcio da Silva, 1988- P927L PreLógica, probabilidade e consequência / Sandro Márcio da Silva Preto. –

Campinas, SP : [s.n.], 2015.

PreOrientador: Walter Alexandre Carnielli. PreDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de

Filosofia e Ciências Humanas.

Pre1. Lógica. 2. Linguagens formais - Semântica. 3. Probabilidades. I. Carnielli,

Walter Alexandre,1952-. II. Universidade Estadual de Campinas. Instituto deFilosofia e Ciências Humanas. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Logic, probability, and consequencePalavras-chave em inglês:LogicFormal languages - SemanticsProbabilitiesÁrea de concentração: FilosofiaTitulação: Mestre em FilosofiaBanca examinadora:Marco Antonio Caron RuffinoMarcelo FingerJuliana Bueno-SolerData de defesa: 25-09-2015Programa de Pós-Graduação: Filosofia

Powered by TCPDF (www.tcpdf.org)

Universidade Estadual de CampinasInstituto de Filosofia e Ciencias Humanas

A Comissao Julgadora dos trabalhos de Defesa de Dissertacao de Mestrado, composta pe-

los Professores Doutores a seguir descritos, em sessao publica realizada em 25 de setembro

de 2015, considerou o candidato Sandro Marcio da Silva Preto aprovado.

Prof. Dr. Marco Antonio Caron Ruffino

Prof. Dr. Marcelo Finger

Profa. Dra. Juliana Bueno-Soler

A Ata de Defesa, assinada pelos membros da Comissao Examinadora, consta

no processo de vida academica do aluno.

Dedico ao meu sobrinho

e afilhado Afonso.

Agradecimentos

Antes de mais nada, agradeco aos meus pais Marcio e Rubia. Esta dissertacao ou

qualquer outra conquista minha e tambem conquista deles, por todos os seus esforcos e,

muitas vezes, sacrifıcios. Nao ha linguagem com poder de expressao capaz de capturar

minha gratidao e meus sentimentos por estes dois.

Agradeco tambem a minha irma Nubia, sempre incentivadora e entusiasta de meus

projetos, e ao pequeno Afonso, que acompanhou apenas alguns meses deste trabalho e

agora e a quem o dedico.

Agradeco ao meu orientador Professor Walter que, sabiamente, me introduziu ao

mundo das probabilidades e das apaixonantes questoes filosoficas. Tambem, a todos os

professores, colegas e amigos do Centro de Logica, que fomentaram nos ultimos tempos

meu amadurecimento intelectual e com quem compartilhei agradaveis momentos.

Sao tantos os amigos responsaveis por minha formacao enquanto gente e, consequente-

mente, enquanto academico que, com medo do imperdoavel crime de omitir algum nome,

omitirei todos. No entanto, citarei os saudosos contextos de nosso convıvio. Assim, tem

minha gratidao os amigos da querida Guaranesia “das manhas orvalhadas”, os amigos

de camisa amarela da animada Sao Carlos, os sabios amigos de republica da grandiosa

Campinas, e, evidente, todos os amigos que fiz nas orbitas destes contextos.

Sou tambem grato aos que acompanham e ajudam a construir minhas mais recentes

experiencias no Instituto Federal em Formiga: meus amigos e colegas de trabalho e, claro,

aqueles que tem o dom de me sensibilizar e humanizar a cada dia, meus alunos.

Resumo

Uma das maneiras conhecidas de representar a incerteza e atraves das probabilida-

des. Para estudar o raciocınio sob incerteza deste ponto de vista, mostramos como e

possıvel associar valores de probabilidade a sentencas de uma linguagem formal defi-

nindo semanticas probabilısticas com suporte na logica classica e em algumas logicas

nao-classicas. Definimos e analisamos relacoes de consequencia probabilıstica baseadas

na semantica probabilıstica. Para tal, estudamos tambem as valoracoes probabilısticas

com auxılio de ferramentas matematicas como a algebra linear e a otimizacao linear. Alem

disto, apresentamos as principais interpretacoes do conceito de probabilidade e introdu-

zimos algumas outras formas de combinar logica e probabilidades.

Palavras chave: Logica, Linguagens formais - Semantica, Probabilidades.

Abstract

A well-known way to represent uncertainty is through probabilities. In order to study

the concept of uncertainty reasoning from this point of view, we show how it is possible

to associate probability values to sentences in a formal language by defining in detail the

notion of probability semantics supported by classical logic and by some non-classical

logics. We define and analyze the concept of probabilistic consequence relations based on

probabilistic semantics. To this end, we also study probabilistic valuations assisted by

mathematical tools such as linear algebra and linear optimization. In addition, we present

some of the main concepts of probability interpretation and introduce some other ways

to combine logic and probabilities.

Keywords: Logic, Formal languages - Semantics, Probabilities.

Sumario

Introducao 11

1 Sobre Probabilidades e suas Interpretacoes 13

1.1 O Calculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 A Probabilidade Classica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.3 A Probabilidade Frequentista . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.4 A Probabilidade Subjetiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.5 A Probabilidade Logica, a questao da inducao e as logicas indutivas . . . . 27

1.6 A Probabilidade Propensista . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Semantica Probabilıstica e Propagacao de Incerteza 36

2.1 Raciocınio sob incerteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2 Axiomatizando a Teoria de Probabilidades . . . . . . . . . . . . . . . . . . 38

2.3 Conjuntos versus sentencas . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4 Semantica probabilıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.5 Majorando a incerteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.6 Consequencia probabilıstica de Adams . . . . . . . . . . . . . . . . . . . . 58

3 Valoracoes Probabilısticas e Estimativas de Probabilidade 60

3.1 Pior caso e aceitacao racional . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.2 Algebra linear e valoracoes probabilısticas . . . . . . . . . . . . . . . . . . 62

3.3 Majoracao e minoracao otimas . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.4 O problema da Satisfatibilidade Probabilıstica . . . . . . . . . . . . . . . . 67

3.5 Computacao de Mψ e mψ . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.6 Consequencia probabilıstica de Hailperin . . . . . . . . . . . . . . . . . . . 75

4 Probabilidades em Logicas Nao-Classicas 78

4.1 O provavel enquanto modalidade . . . . . . . . . . . . . . . . . . . . . . . 78

4.2 Probabilidades multivaloradas . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.3 Probabilidades paraconsistentes . . . . . . . . . . . . . . . . . . . . . . . . 85

Consideracoes Finais 92

Bibliografia 95

A Formas Normais Disjuntivas 102

A.1 Definicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

A.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

B Otimizacao Linear 106

B.1 Problemas de Otimizacao Linear . . . . . . . . . . . . . . . . . . . . . . . . 106

B.2 Problema Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

B.3 Solucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Introducao

Embora ja em autores classicos da logica moderna, como A. De Morgan (DM47) e

G. Boole (Boo54), a Logica e a Teoria de Probabilidades se mostrarem de maos dadas, o

termo logica probabilıstica - definido ainda nesta introducao - pode, como observou Hajek

(Haj01), parecer um oximoro. De um lado, a logica e a disciplina que trata do que e

“imutavel, necessario e certo” e, de outro, as probabilidades se referem “ao incerto, ao

aleatorio, ao inconstante”1. Ainda, no verbete Logic and Probability, da Stanford Encyclo-

pedia of Philosophy (DKS14), as diferencas sao ressaltadas mostrando que a logica oferece

uma perspectiva qualitativa da inferencia, dado que a validade de um argumento repousa

em sua estrutura formal, e as probabilidades oferecem uma perspectiva quantitativa, pois

medem a certeza numericamente.

No sistema da logica proposicional classica, tratado na maior parte deste texto, uma

inferencia e chamada valida quando, por sua estrutura, se suas premissas forem verda-

deiras, sua conclusao necessariamente tambem sera. Nao faltam exemplos classicos de

inferencias validas: modus ponens, silogismo disjuntivo, silogismo hipotetico, etc. No en-

tanto, em muitos casos e comum nao se saber ao certo se sentencas sao verdadeiras ou

falsas, tornando ineficaz o conhecimento das inferencias validas.

A proposta que estudamos, seguindo a linha de E. W. Adams (Ada98), e justamente

medir o grau de certeza que temos sobre a veracidade destas sentencas atraves das pro-

babilidades. Daı se deriva a nocao de semantica probabilıstica, que oferece a possibilidade

de associar probabilidades as sentencas da linguagem proposicional. Neste trabalho abor-

daremos, ainda que de forma elementar e tentativa, tanto a logica classica como algumas

nao-classicas. A proposta inclui estudar como os graus de certeza, isto e, as probabilida-

des, se comportam quando submetidos a relacao de consequencia logica (que modela as

inferencias validas) e que outros tipos de relacoes de consequencias podem nascer desta

combinacao.

Ambas as disciplinas, a Logica e a Teoria de Probabilidades, sao ferramentas adequa-

das para descrever o raciocınio, apesar de nao serem as unicas. Neste trabalho, vamos

1Traducoes nossas de “immutable, necessary and certain” e “the uncertain, the random, the capricious”em (Haj01).

11

12

apresentar a semantica probabilıstica como uma ferramenta fruto da comunhao entre

logica e probabilidades, com objetivo de obter uma forma de tratar o raciocınio quando

ha presenca de incerteza. Entendemos, na maior parte desse texto, logicas probabilısticas

como os sistemas logicos determinados por uma relacao de consequencia derivada desta

semantica probabilıstica. As excecoes sao os sistemas em que sao combinadas de modo

alternativo logicas nao-classicas e probabilidades.

No Capıtulo 1 apresentamos brevemente a Teoria de Probabilidades atraves da sua

teoria matematica de calculo. Alem disso, mostramos que nao existe um consenso sobre a

natureza de probabilidade com uma breve exposicao das principais correntes que tratam

este assunto.

No Capıtulo 2, definimos a semantica probabilıstica, principal objeto de estudo desta

dissertacao, de forma a expressar a nocao de incerteza sobre sentencas. Definimos,

tambem, algumas relacoes de consequencia probabilıstica, baseadas nas caracterizacoes

da inferencia que se obtem de acordo com os resultados que relacionam a semantica pro-

posta nesta dissertacao e a relacao de consequencia da logica classica.

Com vies mais tecnico-matematico, o Capıtulo 3 aprofunda o estudo dos constituintes

da semantica probabilıstica: as valoracoes probabilısticas. Este estudo pretende resolver

questoes como a determinacao da estimativa otima da probabilidade de uma sentenca.

Finalizando o trabalho, o Capıtulo 4 quebra a linha classica que e adotada ate entao

e explora sistemas modais com um operador de probabilidades. Alem disso, introduz um

tema de desenvolvimento recente: semanticas probabilısticas para logicas nao-classicas.

Ainda, no Apendice A, estudamos as Formas Normais Disjuntivas e, no Apendice

B, introduzimos a Teoria de Otimizacao Linear, assuntos de papel importante para o

entendimento das valoracoes probabilısticas, nos Capıtulos 2 e 3.

As Consideracoes Finais retomam os capıtulos anteriores, de forma a sumarizar os

principais pontos desta dissertacao, e apresenta alguns caminhos de pesquisa que podem

motivar trabalhos mais especıficos.

Capıtulo 1

Sobre Probabilidades e suasInterpretacoes

Como, em nosso enfoque a Teoria de Probabilidades representa a incerteza das sen-

tencas, nada mais justo que discutir sua natureza. Comecamos com a apresentacao do

calculo de probabilidades, atraves da axiomatica de Kolmogorov (Kol33) e, entao, levan-

tamos algumas questoes ligadas a sua especificidade. Por este ser um assunto com varios

pontos de vista dissonantes, apresentamos os principais deles.

O maior objetivo deste capıtulo e introduzir algumas das interpretacoes do conceito

de probabilidades sem contudo nos aprofundar em nenhuma delas. A principal referencia

em que nos baseamos e (Gil00). Outras referencias bastante recomendadas sao (Eag10) e

(Sky10).

Na Secao 1.5, ao falar da interpretacao logica das probabilidades, discutimos tambem

a questao da inducao e as logicas indutivas.

1.1 O Calculo de Probabilidades

Uma correspondencia entre Fermat e Pascal, de 1654, e usualmente tomada por marco

inicial do desenvolvimento da Teoria de Probabilidades. Os dois matematicos estudaram

alguns problemas de apostas em jogos de azar, e esse tipo de problema permeou, por um

bom tempo, o estudo desta teoria que teve inıcio na Franca do seculo XVII. Claro que

um acontecimento cientıfico como o inıcio dos estudos de uma teoria dificilmente pode ser

especificado no tempo e, de fato, Fermat e Pascal tiveram predecessores. Mas o trabalho

deles inspirou outros matematicos e deu inıcio ao desenvolvimento sistematico da teoria.

Apesar do estudo das probabilidades ter tido inıcio no seculo XVII, somente no seculo

XX aparece, com A. N. Kolmogorov (Kol33), uma axiomatizacao sistematica. Esta axi-

omatizacao e largamente aceita como a formulacao correta do calculo de probabilidades,

embora uma parcela de matematicos e filosofos discorde e proponha sistemas alternativos

13

14

de calculo, sobre o que discorreremos ainda nesta secao.

Kolmogorov axiomatiza a Teoria de Probabilidades por meio de uma funcao de proba-

bilidade definida sobre uma algebra de conjuntos. Uma algebra F de subconjuntos sobre

um conjunto Ω e uma classe nao-vazia de subconjuntos de Ω fechada por complemen-

tos em relacao a Ω e por unioes finitas. Os elementos de F sao chamados de eventos e

podemos precisar a seguinte definicao:

Definicao 1.1.1. Sejam Ω um conjunto, F uma algebra de subconjuntos sobre Ω e os

conjuntos A,B ∈ F . Uma funcao de probabilidades sobre F e uma funcao P : F → Rque satisfaz os axiomas:

K1 P (A) ≥ 0;

K2 P (Ω) = 1;

K3 Se A ∩B = ∅, entao P (A ∪B) = P (A) + P (B).

A partir destes axiomas pode-se calcular, por exemplo, que P (∅) = 0. De fato, como

Ω ∩ ∅ = ∅ e Ω ∪ ∅ = Ω, o resultado segue imediatamente dos axiomas K2 e K3.

Como exemplo, podemos tomar o conjunto Ω = 1, 2, 3, 4, 5, 6, de todas as possi-

bilidades da face de um dado cair para cima em uma jogada e, como algebra, o con-

junto de todos os subconjuntos de Ω. Para os valores das probabilidades, podemos ter

P (1) = · · · = P (6) = 16. Caso em que tambem temos P (1, 3, 5) = 1

2e P (Ω) = 1.

Este exemplo ilustrativo independe de qualquer nocao de probabilidade apesar de ser uma

instancia da Probabilidade Classica, estudada adiante.

A Definicao 1.1.1 e, na verdade, somente uma das duas versoes que Kolmogorov propoe,

chamada por ele de Teoria Elementar de Probabilidades. A segunda versao que ele apre-

senta toma por domınio da funcao de probabilidade uma σ-algebra: um conjunto que,

alem das propriedades de uma algebra, tambem e fechado por unioes enumeraveis. E,

para axiomatizar a teoria, basta substituir o axioma K3, conhecido por axioma da aditi-

vidade finita, pelo axioma da aditividade enumeravel :

K3’ Se A1, A2, . . . e uma sequencia enumeravel de conjuntos dois-a-dois disjuntos de Ω,

entao

P( ∞⋃n=1

An

)=∞∑n=1

P (An).

A aceitacao da aditividade enumeravel e objeto de bastante discussao entre os especia-

listas. O proprio Kolmogorov entende que os espacos infinitos sao apenas uma idealizacao

15

dos processos aleatorios reais mas, mesmo assim, se limita a estudar os modelos que

satisfazem a aditividade enumeravel1.

Since the new axiom is essential for infinite fields of probability only, it is

almost impossible to elucidate its empirical meaning [...] Infinite fields of pro-

bability occur only as idealized models of real random processes. We limit

ourselves, arbitrarily, to only those models which satisfy Axiom VI. This limi-

tation has been found expedient in researches of the most diverse sort. (Kol56,

traducao para o ingles de (Kol33))

Por outro lado, De Finetti, um dos principais teoricos das probabilidades subjetivas,

nega a aditividade enumeravel e somente trabalha com a aditividade finita (Secao 1.4).

Chamamos a axiomatica que considera somente a aditividade finita de caso finito da

teoria de Kolmogorov, e a axiomatica com a aditividade enumeravel de caso infinito.

Outro importante conceito levado em conta por Kolmogorov e o de probabilidade con-

dicional, definido para eventos A,B ∈ Ω, desde que P (B) 6= 0, pelo quociente

P (A|B) =P (A ∩B)

P (B).

Para Kolmogorov, este quociente define uma nova funcao com dois argumentos, que,

por um abuso de notacao, leva o mesmo nome da funcao de probabilidades a qual ela e

associada. Ha, no entanto, uma discussao se este quociente e realmente uma definicao ou

deveria ser entendido a partir de um axioma que governa um novo operador binario, dado

que o conceito pre-teorico de probabilidade condicional pode nao se alinhar perfeitamente

com a “definicao”. A. Hajek discute esta questao em (Haj03). De qualquer forma, por

motivos tecnicos, nao e incomum tomarmos nos sistemas formais o quociente como uma

definicao e desenvolvermos a teoria matematica, tambem, a partir dele.

A probabilidade condicional tem o objetivo de modelar o calculo da probabilidade de

um evento A quando assumimos que um evento B ocorre. Lemos a notacao P (A|B) como:

probabilidade de A, dado B. A probabilidade de, ao jogar um dado, cair para cima a face

com o numero 3, dado que assumimos que a face que caiu e de um numero ımpar, e a

probabilidade condicional dada por P (3|1, 3, 5) = 13, de acordo com o exemplo que

demos acima nesta secao.

Apesar de algumas excecoes, como os eventos Ω e ∅, a funcao de probabilidade nao

determina valores para os eventos em geral, assim como a logica nao determina, em geral,

1No trabalho original, Kolmogorov coloca o que chama de axioma da continuidade ao inves do equi-valente axioma da aditividade enumeravel em seu sistema.

16

valores de verdade para as sentencas. Tais valores devem ser buscados fora da teoria

matematica. A questao que se coloca e a de entender o que sao as probabilidades. E aı,

alem do aspecto matematico, formalizado pela teoria de Kolmogorov, as probabilidades

tem tambem um aspecto filosofico. Este ultimo, diferente do primeiro, nao e unanimidade

e ha divergencias gritantes entre os filosofos sobre a natureza das probabilidades.

Devido a grande aceitacao da axiomatizacao de Kolmogorov e ao fato deste sistema

ser desenvolvido em estagio cada vez mais avancado, W. Salmon (Sal66) defende a im-

portancia de verificar se cada interpretacao do conceito de probabilidade, entendendo ao

seu modo a sua natureza, esta em consonancia com a axiomatizacao de Kolmogorov. Ao

criterio que dita que, para se aceitar uma interpretacao do conceito de probabilidade, esta

interpretacao deve satisfazer a teoria de Kolmogorov, chama-se criterio de admissibilidade.

No entanto, ha crıticas quanto a adocao deste criterio. Humphreys nota problemas

para algumas interpretacoes em se impor a admissibilidade.

It is time, I believe, to give up the criterion of admissibility. We have seen that

it places an unreasonable demand upon one plausible construal of propensities.

Add to this the facts that limiting relative frequencies violate the axiom of

countable additivity [2] and that their probability spaces are not sigma-fields

unless further constraints are added; that rational degrees of belief, according

to some accounts, are not and cannot sensibly be required to be countably

additive; and that there is serious doubt as to whether the traditional theory

of probability is the correct account for use in quantum theory. Then the

project of constraining semantics by syntax begins to look quite implausible

in this area. (Hum85)

Segundo Lyon (Lyo14), a conclusao de Humphreys e que o sistema axiomatico da Teoria

de Probabilidades adotado deve ser sensıvel a interpretacao de probabilidade adotada,

e nao o contrario. K. R. Popper, proponente da interpretacao propensista (Secao 1.6),

sistematiza diversos calculos de probabilidade alem de determinar uma nova interpretacao.

Ha ainda outras propostas de axiomatizacao da Teoria de Probabilidades, como a de

Renyi, em (Ren55). Renyi propoe uma axiomatica em que o conceito fundamental e o de

probabilidade condicional. Seu espaco de probabilidade condicional e uma generalizacao

da estrutura de Kolmogorov, que pode ser restaurada como caso particular da estrutura

de Renyi.

Outra disputa sobre probabilidades, segundo observacao de J. Bueno-Soler e W. Car-

nielli (BSC15), aparece na existencia de duas tradicoes que diferem sobre qual entidade

2Veja Secao 1.3.

17

sao associados valores de probabilidades. De um lado, em 1933, Kolmogorov introduziu

as probabilidades definidas sobre conjuntos ou eventos, uma abordagem ligada a Teoria

da Medida, um ramo da matematica em que as funcoes de probabilidade sao casos parti-

culares de medidas sobre conjuntos3. Porem, de outro lado, uma abordagem mais antiga

e a associacao de probabilidades sobre sentencas de uma linguagem, como usada por G.

W. Leibniz (1646-1716), defensor do uso de probabilidades em um novo tipo de logica,

em (Lei77), A. De Morgan (1806-1871) em (DM47) e G. Boole (1815-1864) em (Boo54),

dentre outros.

J. Bueno-Soler e W. Carnielli ainda notam que as probabilidades sobre conjuntos,

hoje em dia, sao majoritariamente usadas por matematicos, estatısticos e engenheiros

e as probabilidades sobre sentencas sao preferidas por filosofos e logicos. Veremos nas

interpretacoes apresentadas neste capıtulo exemplos de ambas as tradicoes e, na Secao

2.3, mostraremos uma maneira de relaciona-las.

Nas proximas secoes veremos algumas das mais importantes interpretacoes, veremos

como elas interpretam os conceitos de evento e probabilidade e discutiremos a questao

da satisfatibilidade, por cada uma delas, da teoria de Kolmogorov. Estas interpretacoes

nao excluem necessariamente umas as outras. Para alguns filosofos, elas podem coexistir

e, dependendo do contexto, diferentes interpretacoes podem se encaixar como sendo a

correta. Ja outros nao tem este entendimento pluralista e defendem que somente uma

delas e a teoria correta, como De Finetti.

As interpretacoes do conceito de probabilidade sao geralmente classificadas em dois

grandes grupos: o grupo das interpretacoes objetivas e o grupo das interpretacoes sub-

jetivas. As interpretacoes objetivas entendem que probabilidades sao propriedades dos

fenomenos da natureza e independem do conhecimento e de outras nocoes epistemicas

como crenca, de modo que podem ser realmente medidas objetivamente. Ja as teorias

subjetivas veem probabilidades como entidades relacionadas ao conhecimento do homem

e, portanto, podem variar de acordo com o agente.

Veremos nas proximas secoes exemplos de cada um destes grupos. Mas esta clas-

sificacao tambem nao e unanime. Pode-se colocar dentre os grupos um outro que visa

classificar teorias que entendem as probabilidades como medidas das evidencias objeti-

vas. Nesta outra classificacao, entraria, por exemplo, a interpretacao classica, abordada

a seguir.

3Boas referencias sobre Teoria da Medida sao (RF10) e (Fol99). Na segunda, encontra-se o desenvol-vimento da Teoria de Probabilidades partindo de um espaco de medida.

18

1.2 A Probabilidade Classica

A interpretacao classica do conceito de probabilidade foi advogada, dentre outros, por

P. S. Laplace e foi fortemente influenciada pelo Iluminismo europeu. Num perıodo em que

o Determinismo Universal, sobre o qual decorremos brevemente abaixo, era amplamente

aceito, a interpretacao da nocao de probabilidade aparece como a medida da ignorancia

do ser humano.

A tese do Determinismo Universal e uma consequencia do sucesso da mecanica new-

toniana, que tornou capaz de descrever e prever o movimento dos corpos macroscopicos

com a utilizacao de equacoes matematicas, e Determinismo Universal e a crenca na extra-

polacao desta capacidade para outros fenomenos. O proprio Laplace deu uma das mais

famosas descricoes desta tese iluminista em seu Essai philosophique sur les probabilites :

We ought then to regard the present state of the universe as the effect of its

anterior state and as the cause of the one which is to follow. Given for one

instant an intelligence which could comprehend all the forces by which nature

is animated and the respective situation of the beings who compose it - an

intelligence sufficiently vast to submit these data to analysis - it would embrace

in the same formula the movements of the greatest bodies of the universe and

those of the lightest atom; for it, nothing would be uncertain and the future,

as the past would be present to its eyes.

(Lap51, traducao para o ingles de (Lap40))

A inteligencia vasta a qual Laplace se refere ficou conhecida como o Demonio de La-

place. Hoje em dia, com as descobertas de que as leis da mecanica quantica diferem das

leis da mecanica Newtoniana e com o uso essencial das probabilidades nesta ciencia4,

varias crıticas sao feitas ao Determinismo Universal e sao levantadas teses de que o uni-

verso e indeterminıstico por natureza. Porem, para Laplace, o universo era determinıstico

e a probabilidade e um meio de medir a nossa ignorancia sobre o acontecimento de um

evento que poderia ser determinado se tivessemos o conhecimento, as informacoes e a

capacidade de analise de seu demonio.

Deste modo, sem nenhuma evidencia que favoreca uma possibilidade em particular

ou com evidencias que favorecam de maneira igual todas elas, a probabilidade de um

evento e definida como a fracao em que o numerador e o numero de possibilidades que

verificam este evento e o denominador e o numero total de casos possıveis. Vemos que na

4K. R. Popper, em (Pop57), alem de desenvolver sua interpretacao propensista de probabilidade,tambem mostra como esta interpretacao se relaciona com a mecanica quantica.

19

formulacao classica o calculo das probabilidades somente pode ser aplicado quando temos

casos igualmente possıveis. Assim, ao jogar um dado sobre o qual nao temos nenhuma

informacao adicional, nao temos nenhum motivo para crer que uma face caira para cima

em detrimento das outras e, entao, a probabilidade de cair uma face ımpar e de 36

= 12,

pois ha 3 casos em que a face do dado e ımpar e 6 possibilidades no total. Nas palavras

de Laplace:

The theory of chance consists in reducing all the events of the same kind to

a certain number of cases equally possible, that is to say, to such as we may

be equally undecided about in regard to their existence, and in determining

the number of cases favorable to the event whose probability is sought. The

ratio of this number to that of all the cases possible is the measure of this

probability, which is thus simply a fraction whose numerator is the number of

favourable cases and whose denominator is the number of all the cases possible.

(Lap51)

E imediato que esta formulacao verifica os axiomas de Kolmogorov para o caso finito.

Em notacao moderna, chamando o conjunto das possibilidades de Ω e identificando um

evento com um subconjunto A ⊂ Ω, temos que a probabilidade do evento A e dada por:

P (A) =|A||Ω|

,

em que |A| denota a cardinalidade do conjunto A.

Ainda, ao considerarmos outro evento B ⊂ Ω, se B 6= ∅, entao P (B) 6= 0 e podemos

definir a probabilidade condicional por

P (A|B) =|A ∩B||B|

.

E imediato tambem que esta definicao satisfaz o axioma da probabilidade condicional.

A concepcao classica foi aceita por muito tempo. Em 1912, Markov publicou impor-

tantes resultados, sobre as chamadas cadeias de Markov, em um texto que adotava a

definicao classica como fundamento de seus calculos. Ja sobre as crıticas que surgiram a

esta concepcao, podemos destacar o fato dela nao tratar da jogada de um dado viciado,

por exemplo. Von Mises questiona:

But how are we to deal with the problem of a biased die by means of a theory

which knows only probability based on a number of equally likely results?

(VM57)

20

Laplace, porem, se refere a questao de uma moeda viciada em favor de uma das faces

sem que saibamos qual delas. Por conta deste desconhecimento, a probabilidade classica

de cair cada uma das faces para cima em uma jogada e determinada.

But if there exist in the coin an inequality which causes one of the faces to

appear rather than the other without knowing which side is favored by this

inequality, the probability of throwing heads at the first throw will always

be 12; because of our ignorance of which face is favored by the inequality the

probability of the simple event is increased if this inequality is favorable to it,

just so much as it is diminished if the inequality is contrary to it. (Lap51)

Percebemos claramente aqui que a interpretacao classica nao e do tipo objetiva, pois

a probabilidade nao e uma propriedade que se relaciona com os objetos (moedas, dados,

etc), mas com a ignorancia do ser humano em relacao aos resultados possıveis em um expe-

rimento. Tambem pareceria estranho entende-la como um tipo de probabilidade subjetiva,

pois apesar de qualificar o conhecimento do ser humano, sua determinacao nao depende

de um agente em particular, como na interpretacao subjetiva (que veremos ainda neste

capıtulo). Gillies (Gil00) contorna este inconveniente classificando as interpretacoes das

probabilidades em epistemicas, classe a qual pertence a interpretacao classica, e objetivas.

Laplace chega, em algum momento, a tratar do exemplo de uma moeda viciada, para

a qual a probabilidade de sair cara numa jogada e de 1+α2

e de sair coroa e de 1−α2

. Isto

parece ir no caminho de indicar a existencia de uma probabilidade objetiva e desconhecida.

Para Gillies (Gil00), isto e uma inconsistencia no trabalho de Laplace, em que seu calculo

de probabilidades nao representa seu posicionamento filosofico, evidenciando sua falta de

compromisso com probabilidades objetivas.

1.3 A Probabilidade Frequentista

A ideia frequentista de probabilidade tem carater fortemente empirista e apareceu

na metade do seculo XIX, na escola de Cambridge, com R. L. Ellis (Ell44) e J. Venn

(Ven66). Mas, somente ficou famosa no seculo XX com as formulacoes mais sofisticadas

de Reinchenbach (Rei49) e R. Von Mises (VM19; VM57; VM64), sendo esta ultima a que

introduziremos nos proximos paragrafos.

O carater empirista das interpretacoes frequentistas das probabilidades reside no enten-

dimento da teoria como uma ciencia matematica analoga a mecanica e a geometria. Se por

um lado, para a mecanica temos uma teoria que modela matematicamente os fenomenos

observaveis do movimento e para a geometria, uma teoria que modela o espaco fısico,

21

por outro, para as probabilidades, Von Mises entende que estas tratam de outro tipo de

fenomenos que podemos observar na natureza, a saber, os experimentos aleatorios5. Deste

modo, probabilidades sao caracterısticas dos fenomenos que se repetem, independentes do

observador destes fenomenos, dando assim a esta interpretacao o status de objetiva.

[...] just as the subject matter of geometry is the study of space phenomena, so

probability theory deals with mass phenomena and repetitive events. (VM57,

prefacio da terceira edicao alema)

Desta forma, nao sao associadas probabilidades a um determinado experimento, mas

a um conjunto de experimentos de mesmo tipo. Para cumprir seu programa, Von Mi-

ses chama de coletivo esta sequencia de experimentos uniformes, e propoe observar um

atributo, isto e, uma caracterıstica que pode variar, de cada um destes experimentos.

Um exemplo de coletivo e o lancamento subsequente de uma moeda e o atributo a ser

observado e o lado que cai para cima em cada lancamento (cara ou cora).

O conjunto dos atributos possıveis foi chamado por ele de espaco de atributos e, na

terminologia atual, e largamente conhecido por espaco amostral. Denotando os atributos

cara por K e coroa por C, temos o espaco de atributos Ω = K,C. Para refinar

nossos termos, admitiremos qualquer subconjunto de Ω como atributo e chamaremos,

por exemplo, K e C de atributos elementares. No exemplo de um espaco de atributos

Ω = 1, 2, 3, 4, 5, 6 das faces de um dado, podemos ter o atributo ımpar 1, 3, 5.Von Mises diferencia os conceitos de coletivo empırico, que realmente existe e pode

ser observado no mundo real, como o ato de jogar dez vezes uma moeda em sequencia

em determinado tempo e lugar, e o conceito idealizado de coletivo matematico, uma

sequencia infinita de experimentos. Esta sequencia hipotetica de experimentos do coletivo

matematico e, na verdade, um artifıcio tecnico que idealiza os fenomenos observados nas

frequencias relativas.

Vejamos, entao, o que e uma frequencia relativa. Se, ao atributo A, relacionamos um

coletivo empırico C = ω1, . . . , ωN e denotamos por mn(A) a quantidade de vezes que

o atributo A foi verificado nos n primeiros experimentos de C, definimos a frequencia

relativa de A por

frCn (A) =mn(A)

n.

5Preferimos traduzir o termo repetitive events por experimentos aleatorios primeiro, pois ja estamosusando o termo evento para nomear possibilidades para as quais associamos valores de probabilidade emum experimento e, segundo, pois nos parece ser este o termo empregado em portugues contemporanea-mente para se referir ao que Von Mises chama de repetitive events.

22

A partir daı, a lei testada empiricamente que leva ao conceito de coletivo matematico e

o fato de que, quanto mais se aumenta a quantidade de elementos de um coletivo empırico,

mais a frequencia relativa do atributo em questao se aproxima de uma constante. Keynes

(Key21) sugere dar a esta lei o nome de Lei da Estabilidade das Frequencias Estatısticas6.

E, assim, baseando-se nesta lei e munido da ideia de um coletivo matematico (infinito)

C = ω1, ω2, . . ., Von Mises define a probabilidade do atributo A como

P (A) = limn→∞

frCn (A) = limn→∞

m(A)

n.

It is essential for the theory of probability that experience has shown that in

the game of dice, as in all the other mass phenomena which we have mentioned,

the relative frequencies of certain attributes become more and more stable as

the number of observations is increased. (VM57)

Deste modo, com a definicao de probabilidade baseada em uma idealizacao, na pratica,

uma probabilidade so pode ser aproximada atraves de um coletivo empırico. Entao, para

o desenvolvimento formal de sua teoria, Von Mises desenvolve uma axiomatizacao. Assim,

para ele, as leis das probabilidades tambem sao idealizacoes das observacoes empıricas,

como o conceito de coletivo matematico. Segue um dos axiomas da teoria frequentista

em questao.

Axioma 1 (da Convergencia). Seja A um atributo arbitrario de um coletivo (matematico)

C. Entao, existe o limite

limn→∞

frCn (A).

Von Mises ainda percebe a necessidade de outra lei natural que deve ser levada em

conta em sua Teoria de Probabilidades: a aleatoriedade. O avanco que ele oferece as

ideias frequentistas e a observacao do fato de os coletivos nao terem uma ordem. Por

exemplo, em jogadas subsequentes de uma moeda, nao termos a capacidade de prever qual

sera o resultado dos lancamentos. A ideia intuitiva proposta por Von Mises consiste em

relacionar a aleatoriedade com a falha dos sistemas de apostas, que consistem em receitas

para apostar, como a seguinte: depois de tres caras em um lancamento de moeda, aposte

que o proximo sera coroa. Qualquer sistema deste tipo foi fadado ao fracasso.

The authors of such systems have all, sooner or later, had the sad experience

of finding out that no system is able to improve their chances of winning in

the long run, i.e., to affect the relative frequencies with which different colours

6Traducao nossa de Law of Stability of Statistical Frequencies.

23

or numbers appear in a sequence selected from the total sequence of the game.

(VM57)

A formalizacao axiomatica da lei da aleatoriedade sobre coletivos foi proposta satisfa-

toriamente por Church (Chu40), como uma aplicacao da teoria das funcoes recursivas7,

teoria esta que ele mesmo ajudou a desenvolver.

Axioma 2 (da Aleatoriedade). Seja A um atributo arbitrario de um coletivo (matematico)

C = ω1, ω2, . . ., para o qual

limn→∞

frCn (A) = p.

Entao, para qualquer subsequencia C′ = ωn1 , ωn2 , . . . de C especificada por uma funcao

recursiva, levando em conta as frequencias relativas calculadas nesta nova sequencia, te-

mos

limj→∞

frC′

nj(A) = p.

Para finalizar a explanacao da teoria de Von Mises, vejamos como definir probabi-

lidades condicionais nela. A probabilidade condicional P (A|B) de um atributo A de

um experimento, assumindo que o atributo B se verifica e definida naturalmente a par-

tir da intuicao que temos de probabilidade condicional. Seja C = ω1, ω2, . . . o cole-

tivo para o qual verificamos os atributos A e B. Selecionamos de C uma subsequencia

CB = ωn1 , ωn2 , . . . somente dos experimentos em que se verifica o atributo B e, entao,

levando em conta as frequencias relativas calculadas nesta nova sequencia, se P (B) 6= 0,

podemos definir

P (A|B) = limj→∞

frCBnj

(A).

Para que esta definicao seja coerente e necessario garantir que CB seja um coletivo, ou

seja, que obedeca aos axiomas da convergencia e da aleatoriedade. Uma demonstracao

deste fato esta em (Gil00, 111).

A teoria de Von Mises tambem satisfaz os axiomas de Kolmogorov para o caso finito.

Para o caso infinito, Von Mises propoe mais tarde (VM64) adicionar um novo axioma

aos dois ja existentes. Isto resolve a questao de colocar sua teoria no patamar da axi-

omatizacao amplamente aceita, porem, para Gillies (Gil00, 110), esta estrategia mina a

filosofia de formalizar a Teoria de Probabilidades idealizando as leis naturais verificadas

empiricamente. Alem disso, a definicao de probabilidade condicional apresentada satisfaz

o axioma da probabilidade condicional (Gil00, 111).

Uma das crıticas a teoria de Von Mises ja aparece na idealizacao do coletivo ma-

tematico. Ate que ponto e legıtima a representacao de coletivos empıricos atraves de

7O estudo das funcoes recursivas esta fora do escopo deste trabalho. Para isto, veja (CE09).

24

coletivos matematicos? Von Mises responde a estas crıticas com o argumento de que sua

idealizacao e analoga as idealizacoes sobre o infinito feitas na mecanica e na geometria.

Attempts have been made to construct geometries in which no ‘infinitely nar-

row’ lines exist but only those of definite width. The results were meagre

because this method of treatment is much more difficult than the usual one.

Moreover, a strip of definite width is only another abstraction no better than

a straight line [...] (VM57)

Outra questao e o problema do caso unico: em muitas situacoes importantes, para as

quais gostarıamos de definir uma probabilidade, nao e possıvel definir nem um coletivo

empırico. Para Von Mises, sua teoria simplesmente nao se aplica a estes casos.

Our probability theory has nothing to do with questions such as: “Is there

a probability of Germany being at some time in the future involved in a war

with Liberia?” (VM57)

Para Von Mises, a Teoria de Probabilidades se aplica somente aos experimentos que

podem ser repetidos varias vezes, como fica expresso na maxima: “Primeiro o coletivo,

depois a probabilidade”8.

1.4 A Probabilidade Subjetiva

O conceito de probabilidade subjetiva nasce da identificacao de probabilidades com

graus de crenca. Nesta interpretacao, as probabilidades nao sao propriedades dos possıveis

eventos, mas uma gradacao da crenca que um agente (indivıduo) tem na ocorrencia de um

evento. E aceito tambem que diferentes pessoas, com a mesma capacidade de raciocınio

e as mesmas evidencias, tenham um grau diferente de crenca sobre a ocorrencia de um

mesmo evento. Por isto, esta identificacao torna as probabilidades subjetivas.

Dentre as formulacoes com este vies, se destacam as de F. Ramsey (Ram31) e de De

Finetti (DF30a; DF30b; DF30c; DF89; DF93), que foram propostas independentemente

e, apesar de alguns pontos de discordancia, sao muito proximas.

O primeiro problema que surge na abordagem subjetiva e o de entender o que e e

medir o grau de crenca de um agente. Para Ramsey o grau de crenca e um fenomeno

psicologico que poderia ate ser medido com um aparelho:

[...] it is, I suppose, conceivable that degrees of belief could be measured by a

psychogalvanometer or some such instrument [...] (Ram31)

8Traducao nossa de “First the collective - then the probability” (VM57).

25

Porem, na falta de tal tecnologia, a proposta dos teoricos em questao foi medir o

grau de crenca de um agente levando-o a fazer uma aposta. Deste modo, um oponente9

que fosse medir tal grandeza sobre um evento E deveria seguir o seguinte procedimento:

convencer o agente a participar de uma aposta na qual ele deve escolher um numero

q ∈ [0, 1], chamado de quociente de aposta, e, entao, tal oponente revela uma recompensa

R ∈ R (note que este valor pode ser negativo). O valor que o agente paga para apostar e

de qR e, se o evento E verificar ser o caso, o agente recebe R. E assumido tambem que o

oponente proponha um valor |R| que seja pequeno em relacao as posses do agente.

E importante que o agente nao saiba de antemao se R e positivo ou negativo para

que o quociente de aposta escolhido reflita realmente o grau de crenca que ele tem no

evento E. Se ele soubesse que R > 0, seria vantajoso escolher um valor pequeno para q e

vice versa. Por outro lado, sem esta informacao, nao existe uma boa estrategia alem de

seguir o instinto. Nesta aposta, o papel do agente e mais evitar uma grande perda que

vislumbrar um grande ganho.

Vejamos, na tabela a seguir, alguns exemplos de valores para q e R na aposta de um

evento E, juntamente com o valor ganho pelo agente nos casos em que E for verdadeiro

(coluna E) e em que E for falso (coluna ¬E). O ganho, no caso de acontecer o evento E,

e dado por R− qR e, no caso de se verificar o evento ¬E, por −qR.

q R qR E ¬E0 100 0 100 00 −100 0 −100 0

0, 2 100 20 80 −200, 2 −100 −20 −80 200, 5 100 50 50 −500, 5 −100 −50 −50 500, 8 100 80 20 −800, 8 −100 −80 −20 80

1 100 100 0 −1001 −100 −100 0 100

Seguimos neste texto a abordagem dos primeiros trabalhos de De Finetti, em que

as apostas sao monetarias. Ramsey segue por outro caminho, criando uma teoria da

utilidade. O proprio De Finetti acaba abandonando em seus ultimos trabalhos as apostas

monetarias, mas sua primeira abordagem continua sendo muito aceita na literatura.

E, entao, o quociente de aposta de um agente para um evento E e justamente a

probabilidade P (E) deste evento, relembrando que as probabilidades, aqui, podem variar

9Em (Gil00), Gillies fala de um psicologo ao inves de um oponente, seguindo a linha de que o grau decrenca e um fenomeno psicologico que, para Ramsey poderia ser medido. Preferimos o termo oponente,pois a aposta poderia ser proposta por qualquer um com interesse em ganhar do agente.

26

de agente para agente e, ate mesmo para um mesmo agente, pode variar com o tempo.

Uma objecao que pode ser feita contra esta maneira de mensurar os graus de crenca

e que o quociente medido atraves de apostas e, no maximo, uma estimativa aproximada

e nao um valor numerico exato. Para De Finetti, esta aproximacao nao e um problema e

ate tem a virtude de facilitar os calculos, desde que nao esquecamos que e uma idealizacao

da medida e a teoria matematica trabalhara na pratica, assim, com aproximacoes.

[...] if you want to apply mathematics, you must act as though the measured

magnitudes have precise values. This fiction is very fruitful, as everybody

knows; the fact that it is only a fiction does not diminish its value as long

as we bear in mind that the precision of the result will be what it will be.

[...] To go, with the valid help of mathematics, from approximate premises to

approximate conclusions, I must go by way of an exact algorithm, even though

I consider it an artifice. (DF89)

Para definir probabilidades condicionais na interpretacao subjetiva usamos o conceito

de quociente de apostas condicional : para um evento E, dado um evento F , e o quociente

de aposta que o agente daria para o evento E, sendo que a aposta seria cancelada se o

evento F nao se verificasse. Se F nao se verifica, o valor pago pelo agente e a recompensa

paga pelo oponente sao devolvidos. Este quociente e a probabilidade condicional P (E|F ).

Resolvido o problema de medir a probabilidade subjetiva como um grau de crenca,

surge outra questao de grande importancia: nao e imediato que as probabilidades de um

agente satisfazem os axiomas de Kolmogorov. Na verdade, nem e de se esperar que um

agente tenha quocientes de aposta tao precisos que satisfacam a teoria matematica. E daı

chegamos ao surpreendente Teorema do Aposta holandesa.

Para tal, vamos introduzir a ideia de coerencia: quando um agente aposta em uma

serie de eventos E1, E2, . . . , En, seus quocientes de aposta sao ditos coerentes se, e somente

se, nao existem respectivas recompensas R1, R2, . . . , Rn tais que o oponente sempre ganha

a aposta. Se existem tais recompensas, e dito que o oponente tem um Aposta holandesa10

contra o agente. E razoavel esperar que nenhum agente deixe de ser coerente em suas

apostas. Agora, podemos enunciar o resultado prometido.

Teorema 1.4.1 (Aposta holandesa). Um conjunto de quocientes de aposta e coerente se,

e somente se, eles satisfazem os axiomas de Kolmogorov para o caso finito.

10Traducao nossa da expressao em ingles Dutch book.

27

Este resultado11, demonstrado em (Gil00, 60), deixa patente a validade da inter-

pretacao subjetiva da teoria matematica das probabilidades. No entanto, algumas ob-

servacoes devem ser feitas. A primeira e que De Finetti nao usa exatamente a axiomatica

de Kolmogorov, mas, sim, uma versao dela que utiliza a definicao de funcao de probabi-

lidade sobre a linguagem proposicional classica ao inves de uma algebra. Introduziremos

esta outra versao da axiomatizacao na Secao 2.2.

A outra observacao e o fato de a interpretacao subjetiva nao satisfazer o caso infinito

da teoria de Kolmogorov. Porem, diferente de Von Mises, De Finetti nao ve isto como

um problema e nem tenta contorna-lo. Para ele, o caso infinito e so uma questao de

conveniencia matematica, mas que nao se justifica em seu conceito de probabilidade.

Its success owes much to the mathematical convenience of making the calculus

of probability merely a translation of modern measure theory. [...] No-one has

given a real justification of countable additivity (other than just taking it as

a ‘natural extension’ of finite additivity). (DF74)

Para finalizar, vejamos, na tabela abaixo, um exemplo de conjunto nao-coerente de

quocientes de aposta.

Eventos q R qR R− qRA ∧ ¬B ∧ ¬C 0, 5 10 5 5¬A ∧B ∧ ¬C 0, 3 10 3 7¬A ∧ ¬B ∧ C 0, 3 10 3 7

Deve-se notar que somente uma das sentencas que representam eventos acima pode ser

verdadeira e, entao, o valor maximo que o agente pode ganhar neste conjunto de quocientes

e 7. Por outro lado, com as recompensas dadas, todo o conjunto de quocientes tem o

preco de 11. Neste caso, o oponente tem um Aposta holandesa contra o agente e ganha

as apostas em qualquer situacao. Como declara o Teorema do Aposta holandesa, este

conjunto de quocientes nao respeita os axiomas de Kolmogorov, como pode ser verificado

a partir das observacoes sobre descricoes de estado que veremos na Secao 2.4.

1.5 A Probabilidade Logica, a questao da inducao e

as logicas indutivas

Nesta secao, trataremos de uma interpretacao um pouco diferente, para a qual a

probabilidade condicional tem um papel de maior destaque do que a probabilidade de um

11Um dos sentidos da implicacao do Teorema do Aposta holandesa, o que diz que se os axiomas deKolmogorov sao respeitados, o conjunto de quocientes de aposta e coerente (nao ha Aposta holandesa),foi demonstrado por De Finetti em (DF74). O outro sentido da implicacao, mais sutil, foi provado porKemeny em (Kem55).

28

unico evento, diferente das interpretacoes que vimos ate agora.

A interpretacao logica12, assim como a interpretacao classica, relaciona probabilidade

com o leque de possibilidades do que se analisa. Mas, diferente dela, nao assume ausencia

nem simetria de evidencias, admitindo que as possibilidades possam ter pesos diferentes.

Desse modo, a probabilidade de uma hipotese H e medida levando-se em conta a evidencia

E que se tem, fazendo uso da ideia de probabilidade condicional.

Uma probabilidade sera entendida como o grau de confirmacao que uma evidencia

E da a uma hipotese H. Esta interpretacao culminara em uma generalizacao do con-

ceito de implicacao logica e determinara uma estrutura para o raciocınio indutivo. No

momento, vamos nos ater a exposicao da interpretacao logica e mais tarde voltaremos a

estas questoes.

Frisamos que nesta secao apresentamos a concepcao contemporanea da probabilidade

logica, mas as ligacoes entre logica e probabilidades ja aparece em outros autores, como

Leibniz e Boole, conforme comentado na Secao 1.1.

A interpretacao logica de probabilidade no sentido contemporaneo comecou a ser de-

senvolvida nas primeiras decadas do seculo XX, principalmente em Cambridge, por Key-

nes (Key21) e Jeffreys (Jef39). Na decada de 1950, Carnap tomou partido desta linha

e ofereceu uma formulacao sistematica (Car50) para a teoria. Nossa referencia para a

formulacao de Carnap, estudada a seguir, e (Haj12).

Carnap, assim como De Finetti, define suas probabilidades sobre uma linguagem for-

mal. Porem, nao sobre a linguagem proposicional, mas sobre uma linguagem de primeira

ordem13 com uma quantidade finita de sımbolos de predicados monadicos e uma quanti-

dade enumeravel de constantes individuais.

Nesta linguagem, de acordo com seu poder de expressao, podemos descrever comple-

tamente uma constante por uma conjuncao de todos os sımbolos de predicado, cada um

destes podendo estar negado ou nao, aplicados sobre esta constante. E, entao, chamamos

de descricao de estado uma conjuncao de formulas deste tipo, que descreve completamente

cada uma delas, para todas as constantes da linguagem.

Utilizemos, como exemplo, a linguagem com um unico sımbolo de predicado monadico

F e com as constantes a, b e c. Nesta linguagem, cada constante e descrita completamente

por formulas do tipo Fa, ¬Fa, ¬Fb, Fc, etc. E as descricoes de estado que levam em

consideracao todas as constantes sao:

12As expressoes interpretacao logica e probabilidade logica, no tıtulo da secao, sao traducoes nossas delogical interpretation e logical probability, que aparecem em (Haj12).

13Sobre linguagens e logica de primeira ordem, recomendamos (Men64) e (Sho01).

29

1. Fa ∧ Fb ∧ Fc;

2. ¬Fa ∧ Fb ∧ Fc;

3. ¬Fa ∧ ¬Fb ∧ Fc;

4. ¬Fa ∧ ¬Fb ∧ ¬Fc;

5. Fa ∧ ¬Fb ∧ ¬Fc;

6. Fa ∧ Fb ∧ ¬Fc;

7. Fa ∧ ¬Fb ∧ Fc;

8. ¬Fa ∧ Fb ∧ ¬Fc.

Carnap, entao, associa probabilidades a cada uma destas descricoes de estado atraves

de uma funcao m, que ele chama de medida de probabilidade. A medida de probabilidade

pode ser estendida para qualquer formula da linguagem que seja composta pelas formulas

atomicas que constituem as descricoes de estado sobre as quais a medida foi definida.

Abusando da notacao, tambem chamaremos a extensao de m.

O conceito de medida de probabilidade e analogo14 ao de distribuicao de probabilidade

que introduziremos no Capıtulo 2, em que tratamos da questao da extensao para as

outras formulas. E importante observar que, tanto a medida m, quanto sua extensao,

satisfazem a versao para linguagem formal dos axiomas de Kolmogorov para o caso finito.

Portanto, com o mapeamento que veremos na Secao 2.3, a interpretacao logica oferece

uma interpretacao de uma instancia da teoria de Kolmogorov.

Agora, Carnap pode definir a funcao de confirmacao de uma hipotese H dada uma

evidencia E, que denotaremos por c(H,E) utilizando a versao para linguagem formal da

definicao de probabilidade condicional:

c(H,E) =m(H ∧ E)

m(E).

Chegamos a um ponto crucial da teoria de Carnap. Apesar de existirem varias

possıveis medidas m, ele advoga em favor de uma especıfica, denotada por m∗. Vere-

mos como defini-la e, depois, por que ela e escolhida por Carnap.

Primeiro, vamos chamar de descricao de estrutura os conjuntos maximais de descricoes

de estado de nossa linguagem nos quais cada descricao de estado pode ser obtida de uma

outra deste conjunto por uma permutacao das constantes. Utilizando a numeracao do

exemplo que estamos seguindo para nos referir as descricoes de estado, temos as descricoes

de estrutura:

• 1 - tudo satisfaz F ;

14As medidas de probabilidade sao definidas sobre uma linguagem de primeira ordem enquanto asdistribuicoes sao definidas sobre a linguagem proposicional. Para fazer a analogia, basta entender cadaformula atomica fechada de primeira ordem (e.g., Fa) como uma formula atomica proposicional (e.g.,A), de modo que para formulas atomicas de primeira ordem diferentes devem ser associadas formulasatomicas proposicionais diferentes. Assim, podemos, por exemplo, associar a Fa, Fb e Fc as formulas A,B, e C, respectivamente.

30

• 2, 6, 7 - um ¬F e dois F ;

• 3, 5, 8 - dois ¬F e um F ;

• 4 - tudo satisfaz ¬F .

E, entao, a medida m∗ e definida do seguinte modo: seja p o valor de 1 dividido pela

quantidade de descricoes de estrutura (no nosso exemplo, p = 14). Assim, a medida m∗ de

uma descricao de estado e o valor de p dividido pela quantidade de elementos da descricao

de estrutura a qual esta descricao de estado pertence. Dessa forma, no exemplo:

• m∗(1) = m∗(4) = p1

= 14;

• m∗(2) = m∗(3) = m∗(5) = m∗(6) = m∗(7) = m∗(8) = p3

= 112

.

Note que a medida m∗ favorece as descricoes de estado mais homogeneas. Por exemplo,

a descricao de estado Fa∧Fb∧Fc, em que todas as constantes satisfazem a propriedade F ,

tem uma medida maior do que as descricoes de estado menos homogeneas (em que algumas

constantes possuem a propriedade e outras nao). O mesmo ocorre com ¬Fa∧¬Fb∧¬Fc.Antes de analisar os motivos que levaram Carnap a eleger a medida m∗, vamos observar

que nesta interpretacao logica, a probabilidade da hipotese H e unicamente determinada

pela evidencia E por qualquer agente racional, o que exclui esta teoria da classificacao

subjetiva. Alem disso, a probabilidade aqui nao e medida atraves de experiencias e,

portanto, nao e uma caracterıstica dos fenomenos, nao e objetiva. Da mesma forma que

a probabilidade classica, a probabilidade logica e uma medida de incerteza baseada em

evidencias.

Vejamos, entao, o que faz de m∗ uma medida especial. Ela e uma medida que faz com

que a funcao de confirmacao c∗ que ela induz leve em consideracao o aprendizado com a

experiencia. No nosso exemplo, temos que a probabilidade15 a priori de Fa e m∗(Fa) = 12.

Agora, se soubermos que Fb e o caso, intuitivamente, temos uma evidencia que corrobora

com a hipotese Fa e o grau de confirmacao e, de fato, maior: c∗(Fa, Fb) = 23. Alem disso,

se soubermos que Fc tambem e o caso, temos ainda que c∗(Fa, Fb ∧ Fc) = 34.

Uma crıtica que se faz a abordagem de Carnap e que m∗ nao e a unica medida que faz

com que o grau de confirmacao aprenda com a experiencia, mas varias outras medidas

levam a funcoes de confirmacao com esta caracterıstica. No entanto, m∗ parece ser a mais

simples e natural. Esta caracterıstica de m∗ e justamente o que leva a interpretacao logica

a generalizar o conceito de implicacao logica e a tratar a inducao.

15Como ja dissemos, no Capıtulo 2 abordamos a questao da extensao da medida de probabilidade e,portanto, dos calculos das probabilidades que usamos nos exemplos.

31

A inducao e um modo de inferencia largamente usado no dia-a-dia e nas ciencias. Um

tıpico exemplo de inducao e o raciocınio que toma como premissas: “O primeiro cisne

que vi e branco”, “O segundo cisne que vi e branco”, . . . , “O milesimo cisne que vi e

branco” e, disso, infere: “Todos os cisnes sao brancos”. Esta inferencia, apesar de parecer

razoavel, nao e valida na logica classica e a questao que aparece e a de justificar este tipo

de raciocınio.

Para D. Hume (1711-1776), o conhecido filosofo cetico escoces, este raciocınio e in-

justificavel e nao passa de uma ilusao irracional (Hum88). N. C. A. da Costa coloca o

problema.

O problema central de inducao, dentro de nossa posicao, consiste em se en-

contrar alguma forma de justificacao de todos os tipos de inducao correta,

porquanto todos eles se utilizam ou podem ser utilizados em ciencia. (dC93b)

Varias foram as tentativas de justificar a inducao e N. C. A. da Costa, apos sentenciar

que, ate aquele momento, “Todas as tentativas de solucao do problema de se justificar a

inferencia indutiva falharam” (dC93b), propoe algumas justificativas (dC93b) que admite,

tambem, serem limitadas.

No entanto, o simples abandono do raciocınio indutivo e um tanto problematico devido

a sua utilidade. Neste caso, ha a necessidade da investigacao da estrutura da inducao

sendo este o objetivo das logicas indutivas, sistemas que fazem uso das probabilidades.

Como a logica dedutiva nao precisa legitimar a deducao para entao estuda-la,

o mesmo ocorrera com a logica indutiva e a operacao de inducao. (dC93b)

Nao e nosso objetivo aqui aprofundar sobre a questao da inducao, mas observar que

a interpretacao de Carnap das probabilidades tinha o objetivo de demarcar criterios para

este tipo de inferencia, como fica claro com o fato da funcao de confirmacao c∗ aprender

com a experiencia. E assim, o conceito de implicacao logica e generalizado ao entendermos

que c∗(H,E) determina um grau de implicacao da evidencia E para a hipotese H.

O proprio N. C. A. da Costa esboca um sistema de logica indutiva baseado no que

ele chama de teoria pragmatica da probabilidade, que seria uma interpretacao das proba-

bilidades combinando aspectos das interpretacoes subjetivas e das interpretacoes logicas.

Em suas palavras, “[a probabilidade pragmatica] expressa nosso grau de confianca na con-

veniencia e oportunidade de se admitir uma proposicao como hipotese, com a finalidade

de ser testada e criticada” (dC93b).

Para finalizar, lembramos que o principal objeto de estudo deste trabalho e uma

semantica probabilıstica, que levara as definicoes de algumas relacoes de consequencia

32

na linguagem proposicional e, por assim dizer, de algumas logicas probabilısticas. Reco-

nhecemos que podem haver relacoes entre os sistemas que estudamos e os sistemas de

logica indutiva. Porem, nossa preocupacao nao e a argumentacao indutiva, ao contrario,

entendemos que o tipo de inferencia que tratamos esta intimamente ligado com a in-

ferencia dedutiva. Mais especificamente, com a questao de tratar a deducao em cenarios

em que prevalece a incerteza das informacoes (premissas), como tentamos explicitar a

partir do proximo capıtulo.

1.6 A Probabilidade Propensista

Nesta ultima secao, voltamos a expor uma interpretacao objetiva da Teoria de Proba-

bilidades. A interpretacao propensista surge com o filosofo da ciencia K. R. Popper com

objetivo de tratar o problema do caso unico enfrentado pelas interpretacoes objetivas,

como comentado na Secao 1.3.

A primeira interpretacao defendida por Popper, em (Pop35), foi uma versao fre-

quentista abandonada posteriormente em favor de sua interpretacao propensista. Mas

ja nesta primeira empreitada, Popper deixa explıcita sua preocupacao em propor uma

interpretacao objetiva que trate de casos unicos, diferente da interpretacao de Von Mises,

por necessidade da fısica moderna.

Ideas involving the theory of probability play a decisive part in modern physics.

Yet we still lack a satisfactory, consistent definition of probability; or, what

amounts to much the same, we still lack a satisfactory axiomatic system for

the calculus of probability.

(Pop59a, traducao para o ingles de (Pop35))

My hope is that these investigations will help to relieve the present unsatis-

factory situation in which physicists make much use of probabilities without

being able to say, consistently, what they mean by ‘probability’. (Pop59a)

Ha uma classe extensa e difusa de propostas propensistas de interpretacoes, porem

vamos nos ater a proposta de Popper, que tambem sofreu mudancas de acordo com o

amadurecimento de suas ideias. Popper introduz a interpretacao propensista em (Pop57)

e a desenvolve em escritos sequentes (Pop59b; Pop83; Pop90).

Para resolver a questao da probabilidade objetiva do caso unico, Popper faz uma

“pequena” mudanca, podendo ate ser entendida como uma restricao, no papel que o

conceito de coletivo de Von Mises desempenha na definicao das probabilidades. Mas

33

antes de introduzir a ideia de propensao, vejamos um exemplo de coletivo em que a teoria

de Von Mises descarta a probabilidade do caso unico. Imagine um coletivo formado por

homens brasileiros. A probabilidade do atributo “morrer antes dos 41 anos” pode ser

aproximada pela frequencia relativa deste atributo em relacao ao coletivo estabelecido.

Porem, a probabilidade de um certo homem em particular nesta sequencia viver mais de

41 anos nao pode ser calculada.

We can say nothing about the probability of death of an individual, even if

we know his condition of life and health in detail. The phrase ‘probability of

death’, when it refers to a single person has no meaning at all for us. This

is one of the most important consequences of our definition of probability.

(VM57)

Popper chega a sugerir que esta probabilidade e a propria frequencia relativa do atri-

buto no coletivo, mas ele mesmo, mais tarde, contra-argumenta esta tese (Pop57; Pop59b).

Estas investigacoes levam Popper a associar valores de probabilidades partindo, ao inves

de coletivos, de condicoes geradoras de experimentos repetidos.

All this means that the frequency theorist is forced to introduce a modifi-

cation of his theory - apparently a very slight one. He will now say that

an admissible sequence of events (a reference sequence, a ‘collective’) must

always be a sequence of repeated experiments. Or more generally, he will say

that admissible sequences must be either virtual or actual sequences which are

characterized by a set of generating conditions - by a set of conditions whose

repeated realisation produces the elements of the sequences. (Pop59b)

E, entao, em sua primeira formulacao da interpretacao propensista, Popper asserta que

as condicoes geradoras sao dotadas de uma tendencia, uma disposicao, uma propensao

a gerar sequencias cujas frequencias relativas sao probabilidades se o experimento for

repetido segundo estas condicoes.

[...] we have to visualise the conditions as endowed with a tendency or dis-

position, or propensity, to produce sequences whose frequencies are equal to

the probabilities; which is precisely what the propensity interpretation asserts.

(Pop59b)

Com a visao de Popper nao e mais necessario, para falar de probabilidades objeti-

vamente, que um experimento seja repetido varias vezes. Mas e possıvel, por exemplo,

34

postular probabilidades sobre condicoes geradoras que sejam realizadas, de fato, uma

unica vez.

O chamado problema da classe de referencia, abordado por A. J. Ayer em (Aye63),

afeta esta interpretacao. Ao estabelecer probabilidades a partir de condicoes geradoras,

nao relacionamos valores de probabilidade a um evento em si, mas as condicoes geradoras

de um experimento das quais o experimento e somente uma instancia.

Desta forma, ao tentar estabelecer a probabilidade de um homem particular morrer

antes de completar 41 anos, temos o problema de definir as condicoes geradoras que

definem este homem particular como: “ser homem”, ou “ser homem brasileiro” ou, mais

particularmente, “ser homem brasileiro que fuma dois macos de cigarro diariamente”.

Conforme Popper desenvolve sua interpretacao propensista, ele muda o significado de

propensao como a propriedade de condicoes geradoras a gerar frequencias relativas para

a propriedade de uma situacao fısica em um determinado momento.

[...] propensities in physics are properties of the whole physical situation and

sometimes of the particular way in which a situation changes. (Pop90)

D. W. Miller, que tambem desenvolve este posicionamento tardio de Popper (Mil94;

Mil96), coloca sobre a transicao:

In the propensity interpretation, the probability of an outcome is not a mea-

sure of any frequency, but (as will be explained) a measure of the inclination

of the current state of affairs to realize that outcome. (Mil94)

Como Gillies critica (Gil00, 127), nesta nova versao propensista nao e possıvel testar

uma associacao de propensao a um evento devido o carater unico e nao repetıvel de um

estado fısico, diferente da primeira versao em que a propensao e relacionada as frequencias

relativas. Porem, o proprio Miller admite esta limitacao.

The propensity interpretation of probability is inescapably metaphysical, not

only because many propensities are postulated that are not open to empirical

evaluation [...] (Mil96)

Diferente da maioria dos teoricos vistos neste capıtulo, Popper nao se preocupa em

que sua interpretacao valide o sistema de Kolmogorov. Pelo, contrario, Popper axioma-

tizou varios calculos de probabilidade em seu trabalho. Miller destaca em (Mil) algumas

axiomaticas alternativas a de Kolmogorov para a Teoria de Probabilidades como outras

35

das contribuicoes de Popper no estudo das probabilidades. Alguns destes sistemas jun-

tamente com outros propostos por Popper e Miller em conjunto, estao sumarizados em

(Mil04).

E interessante notar, baseado nos sistemas propostos por Popper, sua preferencia

em tomar como termo primitivo probabilidades condicionais ao inves de probabilidades

absolutas. Tambem e interessante Popper entender que um sistema axiomatico deve ser

satisfeito por todas as interpretacoes propostas. Por isto, em (Pop59b), ele defende que

em um desenvolvimento formal, nao se deve assumir nada sobre a natureza dos objetos aos

quais sao associados valores de probabilidades. Neste contexto, Popper critica o calculo

de Kolmogorov por assumir que estes objetos sejam conjuntos.

Finalizamos nossa breve introducao a Teoria de Probabilidades e as suas principais

interpretacoes. No proximo capıtulo, seguimos introduzindo a semantica probabilıstica e

ja comecamos a investigar relacoes de consequencia, tanto classicas como probabilısticas,

a partir desta semantica.

Capıtulo 2

Semantica Probabilıstica ePropagacao de Incerteza

Neste capıtulo, vamos aprofundar a discussao a respeito do raciocınio sob incerteza.

Partindo da logica proposicional classica, da linguagem proposicional e da semantica bi-

valorada, definimos uma semantica probabilıstica e estudamos como as incertezas sobre

sentencas, representadas pelas probabilidades associadas a elas, se propagam das pre-

missas para a conclusao em uma inferencia. Para isto, vamos introduzir a Teoria de

Probabilidades partindo da linguagem proposicional.

2.1 Raciocınio sob incerteza

O Sistema de Logica Proposicional Classica (LPC) e uma poderosa ferramenta de

inferencia que tem a pretensao de descrever, segundo alguns, ou normatizar, segundo

outros, o raciocınio comum. Seu estudo pode ser motivado por diversas aplicacoes que

chegam ate aos campos mais praticos, como, por exemplo, o estudo de circuitos eletricos.

Porem, ha uma caracterıstica de LPC (e da logica classica como um todo) que pode nos

motivar a analisar sua linguagem de um ponto de vista probabilıstico: a idealizacao da

certeza absoluta sobre o valor de verdade das sentencas.

O cetico D. Hume chega ao ponto de nao aceitar a possibilidade de certeza racional

sobre questoes que ainda se apresentam no futuro (Hum88). Porem, assumindo uma

postura nao cetica quanto ao futuro, podemos aceitar algum grau de certeza sobre tais

fatos. Como, por exemplo, quando, com base nas experiencias de vida, olhamos de manha

para o ceu nublado e nos atentamos para uma sensıvel queda de temperatura e, por isso,

concluımos que existe uma grande chance de chover durante o dia. Mesmo que nao

tenhamos certeza absoluta sobre este fato, este alto grau de certeza pode fazer a diferenca

entre levarmos ou nao um guarda-chuvas ao sairmos de casa pela manha. E, mesmo que

nao chova, muitos vao concordar que esta decisao foi acertada. Afinal de contas, um

36

37

homem prevenido vale por dois!

E ja que parece que a analise das sentencas no dia-a-dia e feita atribuindo-lhes graus de

certeza, nos atentamos ao fato de que estas inferencias nao tem incidencia sobre sentencas

com valor de verdade bem determinado, mas sobre sentencas que possuem certo grau de

certeza. Assim, parece natural que concordemos que a seguinte inferencia e bastante

viavel e util, mesmo sem termos certeza sobre a verdade das premissas:

• Premissa 1. Se houver, pela manha, presenca de grandes nuvens tipo cumulus,

chovera durante o dia;

• Premissa 2. Ha presenca de grandes nuvens tipo cumulus esta manha;

• Conclusao. Chovera durante o dia.

Porem, apesar de natural e usual, ao abrirmos mao da idealizacao da logica classica

para podermos descrever os fenomenos do raciocınio do dia-a-dia, abrimos caminho para

que possıveis problemas aparecam, como podemos notar no Paradoxo da Loteria (Kyb61).

Imagine uma loteria justa com mil bilhetes numerados - 1, 2, 3, . . . , 1000 - em que um destes

bilhetes sera sorteado. As chances de uma proposicao do tipo “O bilhete de numero 484

nao sera sorteado” ser verdadeira e de 999 : 1 (ou 9991000

). Com chances tao grandes e

natural tomarmos esta sentenca por premissa em alguma inferencia. E entao, podemos

tomar por premissa qualquer sentenca do tipo:

An: “O bilhete de numero n nao sera sorteado.” n = 1, 2, 3, . . . , 1000)

Podemos, portanto, tomar todas estas mil sentencas (A1, . . . , A1000) como premissas e

inferirmos, por LPC, a sentenca

A1 ∧ · · · ∧ A1000,

que juntamente com o fato de que um dos bilhetes sera sorteado, gera uma contradicao.

Este paradoxo e creditado a assumirmos tres princıpios do raciocınio (Kva98):

• Existe um limiar da certeza a partir do qual e racional aceitar uma sentenca como

justificada;

• Um conjunto de sentencas aceitas como justificadas e dedutivamente fechado. Ou

seja, este conjunto contem todas as deducoes feitas a partir de sentencas dele;

• Nao e possıvel, para o mesmo indivıduo ao mesmo tempo, aceitar como justificadas

duas sentencas do tipo ϕ e ¬ϕ.

38

As varias tentativas de resolucao do Paradoxo da Loteria atacam pelo menos um destes

princıpios. Sobre o primeiro deles, conhecido como aceitacao racional, ja nos posicionamos

ha pouco que e completamente possıvel e ate necessario no dia-a-dia. As discussoes, no

entanto, vao alem disto e procuram sistematizar um processo que legitime a aceitacao,

geralmente com uso de probabilidades, como em (Wil96). Nesta discussao nao e incomum

o embate em favor de uma interpretacao especıfica de probabilidade, que melhor justifique

a aceitacao racional. Inclusive, o objetivo original de Kyburg ao apresentar o paradoxo era

propor uma teoria da aceitacao racional que rejeitasse o Bayesianismo (uma interpretacao

subjetiva das probabilidades) (Whe07).

A solucao do paradoxo que apresentaremos no decorrer deste capıtulo e proposta

por Adams em (Ada98) e, no nosso julgamento, ela nao se da por meio da discussao da

aceitacao racional. Entendemos que e racional aceitar uma sentenca com alto grau de cer-

teza (no caso, alta probabilidade) e, no aparato formal que desenvolveremos, sera possıvel

analisar como o grau de certeza que temos sobre premissas interfere nas inferencias.

Entendemos, tambem, que esta ferramenta independe da posicao filosofica adotada so-

bre probabilidades. Certamente, ha contextos em que uma interpretacao especıfica parece

mais natural que outra, porem, nao defendemos nenhuma interpretacao em particular. A

unica tese que assumimos e a de que podemos representar graus de certeza ou incerteza

atraves de probabilidades.

De acordo com a abordagem que exploraremos, no Paradoxo da Loteria, apesar de

darmos para cada premissa um grau de certeza muito grande, acumulamos muitas pre-

missas com um pequeno grau de incerteza, o que leva, como veremos, a nao podermos

ter certeza alguma sobre a conclusao. Entao, nos parece que a solucao de Adams esta

relacionada a uma negacao do segundo princıpio colocado de modo que, ao inves de sim-

plesmente aplicar a inferencia classica sobre as premissas justificadas, devemos estudar

como as probabilidades delas se propagam para a conclusao atraves da inferencia.

Com o intuito de modelar a incerteza, abandonamos os valores de verdade em favor das

probabilidades para as sentencas da linguagem de LPC e introduzimos o que chamamos

de semantica probabilıstica, como faremos nas proximas secoes.

2.2 Axiomatizando a Teoria de Probabilidades

Vimos, na Secao 1.1, que Kolmogorov axiomatizou a Teoria de Probabilidades por meio

de uma funcao definida sobre uma algebra de conjuntos. Os textos matematicos, seguindo

esta tradicao, geralmente fazem o mesmo. Porem, no contexto logico, e mais comum

definir a funcao de probabilidades sobre o conjunto das sentencas de uma linguagem

39

formal do que sobre uma algebra de eventos. Algumas justificativas para esta opcao sao

(Wil02):

• Como a logica opera sobre sentencas, parece natural que uma proposta de logica

probabilıstica para o raciocınio pratico faca o mesmo;

• Na teoria matematica de probabilidades, frequentemente probabilidades sao atribuı-

das a valores de variaveis aleatorias. E e mais natural pensar nestas expressoes como

sentencas da forma X = x do que como eventos da forma ω ∈ Ω : X(ω) = x.

Neste sentido, axiomatizaremos a Teoria de Probabilidades atraves de uma funcao

de probabilidade definida sobre as sentencas de LPC. Vamos considerar uma linguagem

proposicional, que chamaremos de L, com um conjunto enumeravel de sentencas atomicas

(denotadas por letras latinas maiusculas: A, B, C, . . . ) e sentencas moleculares formadas

pelos conectivos usuais: ¬, ∨, ∧, →, ↔. Utilizaremos letras gregas minusculas para

metavariaveis representando as sentencas de LPC: ϕ, ψ, . . .

Se ϕ for uma sentenca valida de LPC, denotaremos este fato por ` ϕ e, se ψ for

uma consequencia de ϕ1, . . . , ϕn em LPC, denotaremos este fato por ϕ1, . . . , ϕn ` ψ.

Esta notacao e geralmente usada para denotar a relacao de consequencia sintatica de

LPC, mas como esta relacao e equivalente a consequencia semantica e esta distincao nao

nos interessa, denotaremos desta maneira. No entanto, quando precisarmos justificar a

ocorrencia de uma relacao classica de consequencia, utilizaremos a semantica bivalorada.

Se tivermos ` ¬(ϕ ∧ ψ), diremos que ϕ e ψ sao logicamente incompatıveis. Estamos

assumindo o conhecimento previo de LPC (semantica bivalorada, relacao de consequencia

e alguns metateoremas) e mais sobre este assunto pode ser encontrado em (Men64). Assim,

finalmente podemos definir:

Definicao 2.2.1. Sejam as sentencas ϕ, ψ ∈ L. Uma funcao de probabilidade e uma

funcao P : L → R que satisfaz os axiomas:

K1 P (ϕ) ≥ 0;

K2 Se ` ϕ, entao P (ϕ) = 1;

K3 Se ϕ e ψ sao logicamente incompatıveis, entao P (ϕ ∨ ψ) = P (ϕ) + P (ψ).

Esta definicao deixa explıcito como e natural a relacao da Teoria de Probabilidades

com a logica classica, dado que o desenvolvimento da teoria, desta maneira, pressupoe

LPC a priori. Com esta abordagem podemos, tambem, adicionar um axioma que define

40

a funcao de probabilidade condicional: dadas duas sentencas ϕ, ψ ∈ L, de forma que

P (ψ) 6= 0, temos que

P (ϕ|ψ) =P (ϕ ∧ ψ)

P (ψ).

D. Lewis observa, em (Lew76), que varios autores propuseram a tese de que probabilida-

des de condicionais sao o mesmo que probabilidades condicionais, ou seja, para A,B ∈ L,

temos P (A|B) = P (B → A). Porem, Lewis mostra que, desta forma, ha uma trivia-

lizacao da probabilidade condicional, pois P (A|B) = P (A). Isso nao seria um problema

se A e B representassem eventos independentes1, mas, como esse fato ocorre para quais-

quer A,B ∈ L e para qualquer funcao de probabilidade P , as funcoes de probabilidade

determinariam somente eventos independentes e P (A|B) nao passaria de uma maneira

mais complicada de escrever P (A). Mais que isto, temos a contraintuitiva consequencia

P (A|B) = P (A|¬B). Este resultado e conhecido como a Trivializacao de Lewis.

Note, pretendemos utilizar as funcoes de probabilidade para definir uma semantica

para L e somente a nocao de probabilidades nao-condicionais basta para este intento.

Porem, a probabilidade condicional nao e abandonada, sua definicao e consequencia da

probabilidade sobre sentencas2.

Notamos, tambem, que a axiomatizacao dada nesta secao e finitamente aditiva. Usa-

mos esta abordagem aqui pois as sentencas de L sao sequencias finitas de sımbolos do

alfabeto considerado. Poderıamos definir uma linguagem L∞ com, alem das sentencas

de L, conjuncoes e disjuncoes (∧

e∨

) enumeraveis (Kar64) e, entao, substituir K3 pelo

axioma da aditividade enumeravel :

K3’ Se a famılia enumeravel de sentencas ϕi ⊂ L∞ e logicamente incompatıvel, no

sentido em que ϕi e ϕj sao logicamente incompatıveis para todo i, j ∈ N, entao

P (∨i ϕi) =

∑i P (ϕi).

Mesmo assim, prosseguiremos trabalhando com a versao finita porque, por L ser uma

linguagem formal mais intuitiva, parece se adequar mais ao raciocınio pratico. Williamson,

no entanto, argumenta que nao perdemos nenhuma informacao probabilıstica ao fazer esta

opcao, pois existe uma unica extensao de qualquer funcao de probabilidade P sobre Lpara L∞ (Wil02). Portanto, nao ha mais funcoes de probabilidade em L∞ do que na

linguagem que esta estende. (Veja Secao 1.1 para uma discussao sobre aditividades finita

e enumeravel.)

1Dois eventos A e B sao ditos independentes justamente quando P (A|B) = P (A).2Hailperin, em (Hai10), leva em conta o conceito de probabilidade condicional em uma semantica.

Para isto, ele estende a linguagem L com um novo conectivo binario para simbolizar o condicionalprobabilıstico e desenvolve um outro sistema de logica que ele chama de logica hipotetica (traducao nossade suppositional logic).

41

Com a funcao de probabilidade, modelamos a ideia de graus de certeza sobre as sen-

tencas e, no decorrer deste capıtulo, exploraremos as caracterısticas de semantica que

ela pode agregar a L. Veremos agora alguns exemplos de leis da probabilidade que sao

formalizadas neste sistema.

Teorema 2.2.1. Sejam as sentencas ϕ, ψ ∈ L e P uma funcao de probabilidade sobre L.

Segue que:

1. P (¬ϕ) = 1− P (ϕ);

2. 0 ≤ P (ϕ) ≤ 1;

3. Se ` ¬ϕ (ϕ e logicamente falsa), entao P (ϕ) = 0;

4. Se ` ϕ↔ ψ (ϕ e ψ sao logicamente equivalentes), entao P (ϕ) = P (ψ);

5. P (ϕ ∧ ¬ψ) = P (ϕ)− P (ϕ ∧ ψ);

6. P (ϕ) + P (ψ) = P (ϕ ∧ ψ) + P (ϕ ∨ ψ);

7. Se ` ϕ→ ψ (ϕ logicamente implica ψ), entao P (ϕ) ≤ P (ψ);

8. P (ϕ ∧ ψ) ≥ P (ϕ) + P (ψ)− 1.

Demonstracao. 1. Como ϕ e ¬ϕ sao logicamente incompatıveis, por K3 temos que

P (ϕ ∨ ¬ϕ) = P (ϕ) + P (¬ϕ). Combinando isto com ` ϕ ∨ ¬ϕ e K2, segue o

resultado.

2. Por K1, 0 ≤ P (ϕ). Pelo item 1, temos que P (¬ϕ) = 1 − P (ϕ) e, novamente por

K1, segue P (ϕ) ≤ 1.

3. Como ` ¬ϕ, por K2 temos que P (¬ϕ) = 1. Logo, pelo item 1, P (ϕ) = 1−P (¬ϕ) =

0.

4. Como ` ϕ↔ ψ, seguem ` ¬(ϕ∧¬ψ) e ` ϕ∨¬ψ. Logo, por K2 e K3, P (ϕ)+P (¬ψ) =

1 e, pelo item 1, P (ϕ) = P (ψ).

5. Como ` ¬[(ϕ ∧ ¬ψ) ∧ (ϕ ∧ ψ)] e ` ϕ↔ (ϕ ∧ ¬ψ) ∨ (ϕ ∧ ψ), por K3 e pelo item 4,

segue o resultado.

6. Como ` ϕ∨ψ ↔ (ϕ∧¬ψ)∨ (ϕ∧ψ)∨ (¬ϕ∧ψ), ` ¬[((ϕ∧¬ψ)∨ (ϕ∧ψ))∧ (¬ϕ∧ψ)]

e ` ¬[(ϕ∧¬ψ)∧ (ϕ∧ψ)], por K3 e pelo item 4, segue que P (ϕ∨ψ) = P (ϕ∧¬ψ) +

P (ϕ ∧ ψ) + P (¬ϕ ∧ ψ). Agora, pelo item 5, temos que P (ϕ ∨ ψ) = P (ϕ) − P (ϕ ∧ψ) + P (ϕ ∧ ψ) + P (ψ)− P (ϕ ∧ ψ) e daı segue o resultado.

42

7. Como ` ϕ → ψ e ` (ϕ → ψ) ↔ (¬ϕ ∨ ψ), por K2 e pelo item 4, temos que

P (¬ϕ ∨ ψ) = 1. Com isto, e pelo item 6, segue P (¬ϕ) + P (ψ) = P (¬ϕ ∧ ψ) + 1

que, pelo item 1, implica P (ϕ) + P (¬ϕ ∧ ψ) = P (ψ). Logo, por K1, P (ϕ) ≤ P (ψ).

8. Como ` (ϕ ∧ ¬ψ) ∨ (ϕ ∧ ψ)↔ ϕ e ` ¬[(ϕ ∧ ¬ψ) ∧ (ϕ ∧ ψ)], por K3 e pelo item 4,

temos que P (ϕ) = P (ϕ ∧ ¬ψ) + P (ϕ ∧ ψ). Por outro lado, como ` ϕ ∧ ¬ψ → ¬ψ,

pelo item 7, temos que P (ϕ ∧ ¬ψ) ≤ P (¬ψ). Combinando estes resultados com o

item 1, segue o resultado esperado.

Sempre que apresentado um sistema axiomatico, como o da Definicao 2.2.1, surge a

questao da existencia de um modelo para este sistema. Nossa demonstracao construtiva

da existencia de uma funcao de probabilidade precisara esperar ate a Secao 2.4.

2.3 Conjuntos versus sentencas

Na Secao 1.1 mencionamos a discussao de J. Bueno-Soler e W. Carnielli (BSC15)

sobre duas tradicoes que envolvem o estudo das probabilidades: uma que associa valores

de probabilidades a conjuntos e outra que o faz a sentencas.

Como a Teoria de Probabilidades mais aceita e estudada e aquela de Kolmogorov,

axiomatizada na Definicao 1.1.1, pretendemos utilizar este conceito com a finalidade de

desenvolver uma semantica para L. Portanto, vamos investigar como se relacionam a

axiomatica de Kolmogorov, que associa probabilidades a conjuntos, com a axiomatica

que apresentamos na Definicao 2.2.1, que associa probabilidades a sentencas. Assim,

esperamos deixar claro que estamos realmente aplicando as probabilidades tradicionais

da teoria matematica no estudo da logica.

Primeiro, denotando o conjunto das valoracoes classicas3 de LPC por V , vamos associar

a cada sentenca ϕ ∈ L um subconjunto de V , dado por

[[ϕ]] = v ∈ V | v(ϕ) = 1.

Assim, o conjunto [[A∨B → C]], por exemplo, e dado pelas valoracoes que se comportam

de uma das seguintes maneiras em A, B e C:

• v(A) = 1, v(B) = 1 e v(C) = 1;

• v(A) = 1, v(B) = 0 e v(C) = 1;

3Neste texto, utilizamos os numeros 0 e 1 para os valores de verdade classicos Verdadeiro e Falso.Logo, as valoracoes classicas serao funcoes do tipo v : L → 0, 1.

43

• v(A) = 0, v(B) = 1 e v(C) = 1;

• v(A) = 0, v(B) = 0 e v(C) = 1;

• v(A) = 0, v(B) = 0 e v(C) = 0.

Com esta associacao, podemos observar que conectivos logicos aplicados as sentencas se

traduzem em operacoes entre conjuntos.

Teorema 2.3.1. Sejam ϕ, ψ ∈ L. Entao,

1. [[ϕ ∨ ψ]] = [[ϕ]] ∪ [[ψ]];

2. [[ϕ ∧ ψ]] = [[ϕ]] ∩ [[ψ]];

3. [[¬ϕ]] = V − [[ϕ]].

Demonstracao. Faremos a demonstracao do item 1, as demais seguem o mesmo tipo de

argumento. Seja v ∈ [[ϕ ∨ ψ]]. Temos que v(ϕ ∨ ψ) = 1, ou seja, v(ϕ) = 1 ou v(ψ) = 1 e,

entao, segue que v ∈ [[ϕ]] ou v ∈ [[ψ]]. Logo, v ∈ [[ϕ]]∪ [[ψ]]. Seguindo a recıproca destas

implicacoes, se v ∈ [[ϕ]] ∪ [[ψ]], segue que v ∈ [[ϕ ∨ ψ]] e, portanto, temos o resultado.

Alem disso, definindo o conjunto

A = [[ϕ]] ∈ ℘(V)4 | ϕ ∈ L

e dada uma funcao de probabilidade sobre sentencas PL : L → R, como na Definicao

2.2.1, podemos traduzi-la em uma funcao de probabilidade sobre conjuntos PA : A → R,

como na Definicao 1.1.1, por

PA([[ϕ]]) = PL(ϕ), para qualquer ϕ ∈ L.

Os proximos resultados tratam de mostrar que PA esta bem definida.

Teorema 2.3.2. O conjunto A e uma algebra de subconjuntos de V.

Demonstracao. A 6= ∅, pois, para qualquer sentenca ϕ ∈ L, [[ϕ]] ∈ A. Dado um conjunto

[[ϕ]] ∈ A, associado a sentenca ϕ ∈ L, temos, pelo item 3 do Teorema 2.3.1, que [[¬ϕ]] =

V − [[ϕ]]. Como [[¬ϕ]] ∈ A, A e fechado por complementos em relacao a V . Finalmente,

dados os conjuntos [[ϕ]], [[ψ]] ∈ A, associados as sentencas ϕ, ψ ∈ L, segue, pelo item 1

do Teorema 2.3.1, que [[ϕ]] ∪ [[ψ]] = [[ϕ ∨ ψ]]. Portanto, como [[ϕ ∨ ψ]] ∈ A, temos que

A e fechado por unioes finitas e e uma algebra de subconjuntos de V .

4℘(V) denota o conjunto das partes de V.

44

Teorema 2.3.3. PA e uma funcao de probabilidade ao modo da Definicao 1.1.1.

Demonstracao. Vamos mostrar que PA satisfaz cada axioma K1-K3 da Definicao 1.1.1.

K1 Dado um conjunto [[ϕ]] ∈ A associado a uma sentenca ϕ ∈ L, temos que PA([[ϕ]]) =

PL(ϕ) ≥ 0, pelo axioma K1 da Definicao 2.2.1.

K2 Seja ϕ ∈ L de forma que ` ϕ. Logo, para qualquer v ∈ V , v(ϕ) = 1 e V = [[ϕ]].

Assim, PA(V) = PA([[ϕ]]) = PL(ϕ) = 1, pelo axioma K2 da Definicao 2.2.1.

K3 Dados os conjuntos [[ϕ]], [[ψ]] ∈ A associados as sentencas ϕ, ψ ∈ L, de forma que

[[ϕ]]∩ [[ψ]] = ∅, temos que nao existe uma valoracao v ∈ V tal que v(ϕ) = v(ψ) = 1.

Portanto, temos ` ¬(ϕ ∧ ψ) e segue, pelo item 1 do Teorema 2.3.1 e pelo axioma

K3 da Definicao 2.2.1, que PA([[ϕ]] ∪ [[ψ]]) = PA([[ϕ ∨ ψ]]) = PL(ϕ ∨ ψ) = PL(ϕ) +

PL(ψ) = PA([[ϕ]]) + PA([[ψ]]).

O resultado anterior nos mostra que, na algebra de conjuntos A, uma sentenca valida

de LPC e associada ao conjunto V e que duas sentencas ϕ, ψ ∈ L incompatıveis se tornam

dois conjuntos disjuntos [[ϕ]] ∩ [[ψ]] = ∅. Alem disso, a duas sentencas distintas pode ser

associado o mesmo conjunto, como no caso de a quaisquer sentencas validas ser associado

o conjunto V . Na verdade, a quaisquer sentencas logicamente equivalentes e associado o

mesmo conjunto. Assim, se ` ϕ↔ ψ, segue que [[ϕ]] = [[ψ]].

Verificamos, entao, que a versao sobre sentencas da Teoria de Probabilidades e analoga

a versao sobre conjuntos de acordo com a algebra de conjuntos A que definimos, ou seja,

e um caso particular de probabilidades sobre conjuntos. A partir de agora nos referiremos

a Teoria de Probabilidades como a teoria formulada pelo sistema axiomatico apresentado

na Definicao 2.2.1.

2.4 Semantica probabilıstica

Do ponto de vista logico, as probabilidades se assemelham muito as valoracoes que

formam a semantica bivalorada de LPC. Se, por um lado, uma valoracao e uma funcao

que relaciona cada sentenca de L a um elemento do conjunto 0, 1, por outro, a funcao de

probabilidade relaciona cada sentenca de L a um elemento do intervalo [0, 1], que possui

como extremidades justamente os valores de verdade da semantica bivalorada.

Entendendo as funcoes de probabilidade como generalizacoes das valoracoes, vamos

chama-las, no contexto logico, de valoracoes probabilısticas. Mais ainda, entendendo que

45

a abordagem semantica e aquela que parte de um modelo para uma linguagem (no nosso

caso, os modelos sao as valoracoes probabilısticas), comecamos aqui o estudo da semantica

probabilıstica, definida como o conjunto de todas as valoracoes probabilısticas.

Uma importante diferenca entre a semantica probabilıstica e a semantica bivalorada de

LPC e que nao e sempre possıvel calcular os valores de uma valoracao probabilıstica para

uma sentenca composta em funcao de seus valores para os componentes desta sentenca.

Por exemplo, para uma valoracao probabilıstica P , nao podemos calcular o valor de

P (ϕ∨ψ) somente conhecendo os valores de P (ϕ) e P (ψ). Adams (Ada98, 15) defende que

isto significa que probabilidades nao sao graus de verdade, como nas logicas multivaloradas

ou na logica fuzzy, nas quais o comportamento dos conectivos sao completamente definidos

por tabelas verdade (finitas ou infinitas).

Concordamos com esta defesa pois entendemos que e pressuposto que a sentenca pos-

sua, em geral, um valor de verdade desconhecido, sobre o qual pode ser que somente

tenhamos um grau de certeza, a sua probabilidade. Tambem aponta nesta direcao o fato

de as probabilidades associadas a algumas sentencas serem regidas por regras que depen-

dem da semantica bivalorada (esta, de valores de verdade), como os axiomas K2 e K3 da

Definicao 2.2.1.

No entanto, e possıvel calcular o valor de uma valoracao probabilıstica de qualquer

sentenca composta partindo dos valores para as descricoes de estado de suas sentencas

atomicas: as descricoes de estado de um conjunto A1, . . . , An de sentencas atomicas sao

todas as conjuncoes compostas por estas sentencas ou negacao delas. Somamos a esta

definicao as observacoes:

• Qualquer sentenca de L que nao seja uma negacao e equivalente a uma disjuncao

de descricoes de estado do conjunto de suas sentencas atomicas, sua forma normal

disjuntiva (FND);

• As descricoes de estado de um conjunto sao todas incompatıveis entre si5.

E assim, com aplicacoes sucessivas do axioma K3, e possıvel efetuar o calculo da

probabilidade de uma sentenca ϕ partindo das probabilidades das descricoes de estado

do conjunto das sentencas atomicas que compoem ϕ. Como exemplo, tome as seguintes

atribuicoes de probabilidades para as descricoes de estado do conjunto A,B,C, dadas

pela valoracao probabilıstica P :

5Os resultados sobre formas normais disjuntivas utilizados em todo este texto, inclusive como calculara FND de uma sentenca, sao explorados devidamente no Apendice A.

46

• P (A ∧B ∧ C) = 0, 1;

• P (¬A ∧B ∧ C) = 0, 3;

• P (¬A∧¬B∧C) = 0, 1;

• P (¬A ∧ ¬B ∧ ¬C) = 0;

• P (A∧¬B∧¬C) = 0, 2;

• P (A ∧B ∧ ¬C) = 0;

• P (A ∧ ¬B ∧ C) = 0, 2;

• P (¬A∧B∧¬C) = 0, 1.

Assim, podemos calcular a probabilidade da sentenca A ∨ B → C, que e equivalente

a (A ∧ B ∧ C) ∨ (¬A ∧ B ∧ C) ∨ (¬A ∧ ¬B ∧ C) ∨ (¬A ∧ ¬B ∧ ¬C) ∨ (A ∧ ¬B ∧ C) do

seguinte modo:

P (A ∨B → C) = P (A ∧B ∧ C) + P (¬A ∧B ∧ C)+

+P (¬A ∧ ¬B ∧ C) + P (¬A ∧ ¬B ∧ ¬C) + P (A ∧ ¬B ∧ C) = 0, 7.

As formas normais disjuntivas desempenham um importante papel no estudo das va-

loracoes probabilısticas, como podera ser visto em todo Capıtulo 3. A seguir, damos uma

demonstracao construtiva de existencia de uma valoracao probabilıstica (i.e., existencia

de modelo para a axiomatica da Definicao 2.2.1) que faz uso essencial das FNDs.

Teorema 2.4.1. Existe uma valoracao probabilıstica.

Demonstracao. Definimos a valoracao probabilıstica P0 : L → R pelas seguintes clausulas:

• P0(ϕ) = 0, se ϕ for uma sentenca atomica ou uma descricao de estados com ao

menos um literal que nao seja negado;

• P0(ϕ) = 1, se ϕ for um literal negado ou uma descricao de estados composta somente

por literais negados;

• P0(ϕ) = 0, se ϕ for uma contradicao;

• P0(ϕ) =∑

i P (di(ϕ)), em que di(ϕ) sao as descricoes de estado da FND canonica

equivalente a ϕ, se ϕ nao se encaixa nos casos anteriores.

Vamos agora mostrar que P0 satisfaz os axiomas K1-K3 da Definicao 2.2.1.

P0 e nao-negativa em qualquer caso de sua definicao. Em particular, para qualquer

descricao de estado e, no ultimo caso, para um sentenca ϕ ∈ L,

P0(ϕ) =∑i

P0(di(ϕ)) ≥ 0.

47

Se ` ϕ, pela construcao canonica, a FND de ϕ e formada por todas as descricoes de

estado do conjunto das sentencas atomicas que a compoem. Logo, pelas duas primeiras

clausulas da definicao de P0, P0(ϕ) = 1.

Finalmente, dadas as sentencas ϕ, ψ ∈ L, suponha que as sentencas atomicas que

compoem ψ e nao compoem ϕ sejam as do conjunto A1, . . . , An. Pelo Teorema A.2.3,

di(ϕ) e (di(ϕ) ∧ A1) ∨ (di(ϕ) ∧ ¬A1) sao equivalentes. Alem disso:

• Se di(ϕ) possui ao menos um literal nao negado, P0(di(ϕ)) = P0(di(ϕ) ∧ A1) =

P0(di(ϕ) ∧ ¬A1) = 0;

• Se di(ϕ) e composto somente por literais negados, P0(di(ϕ)) = P0(di(ϕ)∧¬A1) = 1

e P0(di(ϕ) ∧ A1) = 0.

Em ambos os casos, P0(di(ϕ)) = P0(di(ϕ) ∧A1) + P0(di(ϕ) ∧ ¬A1). Continuando reitera-

damente este raciocınio em mais n− 1 passos, temos que:

di(ϕ) e∨±

di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)

sao equivalentes e

P0(di(ϕ)) =∑±

P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)).

Portanto,

ϕ e∨i

∨±

di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)

sao equivalentes e

P0(ϕ) =∑i

∑±

P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)).

Por outro lado, supondo que as sentencas atomicas que compoem ϕ e nao compoe ψ sejam

as do conjunto B1, . . . , Bm, conseguimos resultados analogos para ψ e temos que

ϕ ∨ ψ e(∨

i

∨±

di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An))∨(∨

i

∨±

di(ψ) ∧ (±B1 ∧ · · · ∧ ±Bm))

sao equivalentes e, mais ainda, a FND acima e formada apenas pelas sentencas atomicas

que compoem ϕ∨ψ, alem de que, como ` ¬(ϕ∧ψ), no processo de construcao de cada uma

das FNDs, nao corremos o risco de repetir uma descricao de estado da FND resultante de

ϕ na FND resultante de ψ e vice versa. Logo, a FND acima e a FND canonica de ϕ ∨ ψ.

Portanto,

P0(ϕ ∨ ψ) =∑i

∑±

P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An))+

48

+∑i

∑±

P0(di(ψ) ∧ (±B1 ∧ · · · ∧ ±Bm)) = P0(ϕ) + P0(ψ).

Chamamos a funcao que atribui valores em [0, 1] para todas as descricoes de estado

de um conjunto finito α de sentencas atomicas, de modo que a soma destes valores seja

1, de distribuicao de probabilidade para este conjunto. A soma dos valores deve ser 1

pois queremos entende-los como probabilidades e, entao, esta restricao nos e imposta pela

combinacao do fato de a disjuncao de todas as descricoes de estado de um conjunto de

sentencas ser uma sentenca valida de LPC com o axioma K3.

A partir de uma distribuicao de probabilidade para um conjunto α de sentencas

atomicas, podemos calcular as probabilidades de todas as sentencas compostas por ele-

mentos de α. Trabalhar desta maneira, com probabilidades para um conjunto restrito de

sentencas definidas a partir de uma distribuicao de probabilidade, e possıvel na teoria que

desenvolveremos pois qualquer distribuicao de probabilidade pode ser estendida a uma

valoracao probabilıstica, como mostramos, mais tarde, no Teorema 3.4.1.

Na verdade, e interessante que possamos trabalhar com distribuicoes de probabilidade

pois, na pratica, muitas vezes estamos interessados somente em algumas sentencas em

particular e, entao, garantindo que as probabilidades associadas a estas sentencas sao

induzidas por uma distribuicao de probabilidades, garantimos que estamos trabalhando

coerentemente com uma valoracao probabilıstica. Para deixar claro que a validade de uma

inferencia depende somente de uma quantidade finita de sentencas, Hailperin (Hai84)

define uma nocao de valoracao probabilıstica mais restrita, que leva em consideracao

somente as sentencas com as quais esta preocupado.

Definicao 2.4.1. Sejam um conjunto de sentencas Φ = ϕ1, . . . , ϕN, um conjunto de

sentencas atomicas α = A1, . . . , An que inclua todas as sentencas necessarias para

compor as sentencas de Φ e um conjunto de numeros reais K = k1, . . . , k2n ⊂ [0, 1] tal

que a soma de seus elementos seja 1. Uma valoracao probabilıstica adequada a Φ e uma

funcao bijetiva PΦ entre o conjunto das descricoes de estado de α e K.

A funcao PΦ satisfaz as leis da probabilidade do sistema da Definicao 2.2.1 para as

sentencas nas quais ela esta definida, mas nao seguiremos por este caminho pois, alem

de dificultar as definicoes, deixando-as carregadas de detalhes, perdemos a naturalidade

com que a nocao de valoracao probabilıstica estende a nocao classica de valoracao. Alem

disso, como ja notamos, podemos trabalhar com distribuicoes de probabilidades para

conjuntos finitos de sentencas sem maiores preocupacoes, pois elas podem ser estendidas

para valoracoes probabilısticas.

49

Agora, com a semantica probabilıstica, podemos tentar comecar a entender como as

incertezas se propagam das premissas para a conclusao em uma inferencia. Para isto,

definimos uma primeira relacao de consequencia probabilıstica, que generaliza a relacao

de consequencia logica definida atraves da semantica bivalorada.

Definicao 2.4.2. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L. A relacao de consequencia

probabilıstica, denotada por

ϕ1, . . . , ϕn |=P ψ,

e definida da seguinte maneira: para toda valoracao probabilıstica P , tal que P (ϕ1) =

· · · = P (ϕn) = 1, temos que P (ψ) = 1.

Se temos que para toda valoracao probabilıstica P , P (ψ) = 1, dizemos que ψ e uma

sentenca probabilisticamente valida e escrevemos |=P ψ.

De posse das valoracoes probabilısticas e da relacao de consequencia probabilıstica,

temos os ingredientes necessarios para um primeiro sistema de logica probabilıstica, con-

cebido sobre a linguagem L. Veremos a seguir que LPC e equivalente ao sistema que

acabamos de definir ou, entao, que LPC e correto e completo em relacao a consequencia

probabilıstica.

Lema 2.4.1. Sejam ϕ1, . . . , ϕn ∈ L e P uma valoracao probabilıstica tal que P (ϕ1) =

· · · = P (ϕn) = 1. Entao, P (ϕ1 ∧ . . . ∧ ϕn) = 1.

Demonstracao. Para o caso n = 2, o resultado segue pelos itens 2 e 8 do Teorema 2.2.1.

Supondo que este resultado seja valido para o caso n e aplicando novamente o item 8 do

Teorema 2.2.1, temos que P (ϕ1 ∧ . . .∧ ϕn ∧ ϕn+1) ≥ P (ϕ1 ∧ . . .∧ ϕn) + P (ϕn+1)− 1 ≥ 1.

Portanto, o resultado segue do item 2 do Teorema 2.2.1.

Teorema 2.4.2 (Correcao). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn ` ψ, segue que

ϕ1, . . . , ϕn |=P ψ.

Demonstracao. Supondo que, para uma valoracao probabilıstica P , tenhamos P (ϕ1) =

· · · = P (ϕn) = 1, segue pelo lema anterior que P (ϕ1 ∧ . . . ∧ ϕn) = 1. Agora, como

ϕ1, . . . , ϕn ` ψ, segue pelo Teorema da Deducao (Men64), que ` ϕ1∧ . . .∧ϕn → ψ e, pelo

item 7 do Teorema 2.2.1, P (ψ) ≥ P (ϕ1 ∧ . . . ∧ ϕn). Combinando as duas desigualdades,

temos P (ψ) ≥ 1. Portanto, pelo item 2 do Teorema 2.2.1, P (ψ) = 1 e segue o resultado.

Lema 2.4.2. Toda valoracao da semantica bivalorada de LPC e tambem uma valoracao

probabilıstica.

50

Demonstracao. Sejam ϕ, ψ ∈ L e v uma valoracao da semantica bivalorada de LPC.

Temos que v(ϕ) ∈ 0, 1 e, entao v satisfaz K1. Se ` ϕ, temos que v(ϕ) = 1 e, entao, v

tambem satisfaz K2. Agora, se ` ¬(ϕ ∧ ψ), ha tres casos possıveis para a valoracao:

1. v(ϕ) = 1 e v(ψ) = 0;

2. v(ϕ) = 0 e v(ψ) = 1;

3. v(ϕ) = 0 e v(ψ) = 0.

Em todos os casos, P (ϕ ∨ ψ) = P (ϕ) + P (ψ) e, entao, v tambem satisfaz K3. Portanto,

v e uma valoracao probabilıstica.

Teorema 2.4.3 (Completude). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn |=P ψ, entao

ϕ1, . . . , ϕn ` ψ.

Demonstracao. Seja v uma valoracao da semantica bivalorada de LPC em que v(ϕ1) =

· · · = v(ϕn) = 1. Pelo lema anterior, podemos entender esta valoracao como uma va-

loracao probabilıstica e, entao, como ϕ1, . . . , ϕn |=P ψ, segue que v(ψ) = 1. Portanto,

temos o resultado.

Em (Voo99), ao usar a semantica probabilıstica para representar graus de crenca em

proposicoes, Voorbraak observa que seu modelo probabilıstico de representacao incorpora

naturalmente o modelo classico de conjunto de crencas. Um conjunto de crencas e um

conjunto dedutivamente fechado de sentencas compatıveis de L e um modelo probabilıstico

para L e o que chamamos neste trabalho de valoracao probabilıstica. Assim, a cada

conjunto de crencas K pode ser associada uma classe de modelos probabilısticos que dao

valor 1 para as sentencas de K, pelos Teoremas 2.4.2 e 2.4.3.

Analogamente a observacao de Voorbraak no contexto da revisao de crencas, o sistema

de logica probabilıstica proposto acima e equivalente a LPC, ou seja, a semantica proba-

bilıstica incorpora a logica classica. Desde que a relacao de consequencia probabilıstica

e definida visando a preservacao da certeza absoluta sobre a veracidade das sentencas, a

equivalencia dos sistemas quer dizer que a nossa certeza absoluta se preserva da mesma

maneira que a verdade se preserva em uma inferencia. Realmente, nao faria sentido, por

exemplo, tendo certeza da veracidade das sentencas A ∨ B e ¬A, nao ter certeza da ve-

racidade de B, que pode ser inferido das premissas. Do mesmo modo, nao faria sentido

a certeza absoluta de ϕ1 e ϕ2 nos levar a ter certeza tambem sobre ψ, mas ψ nao ser

verdadeira.

Identificamos o ato de associar uma probabilidade 1 para uma sentenca ϕ com o ato

de associar o valor de verdade Verdadeiro (ou 1) para esta sentenca ϕ. Assim, no que diz

51

respeito a propagacao de incerteza em uma inferencia, ja sabemos que se a incerteza sobre

as premissas for nula (valor de probabilidade 1), a incerteza sobre a conclusao tambem

sera nula (tera probabilidade 1).

Porem, este sistema de logica probabilıstica ainda e pouco informativo em relacao

a propagacao de incerteza, pois a relacao de consequencia probabilıstica leva em consi-

deracao somente a certeza absoluta, ao passo que a semantica probabilıstica oferece outras

possibilidades de graus de certeza. Na proxima secao estudaremos como outros valores

de probabilidade se propagam em uma inferencia.

Para concluir esta secao, cabe notar que neste texto nos atemos prioritariamente a uma

semantica probabilıstica para LPC, mas existem estudos sobre semanticas probabilısticas

para varias outras logicas. Daremos alguns exemplos de semanticas probabilıstica para

logicas nao classicas no Capıtulo 4.

2.5 Majorando a incerteza

Com os Teoremas de Correcao (2.4.2) e Completude (2.4.3) demonstrados na secao

anterior, pudemos argumentar que a semantica probabilıstica incorpora a logica classica

nos casos em que ha certeza absoluta sobre veracidade ou falsidade de sentencas. Mas,

para tratar da propagacao de incerteza e propor uma solucao para dilemas como o Para-

doxo da Loteria, a relacao de consequencia probabilıstica definida nao e suficiente, pois

ela nao considera graus de certeza que nao sejam 0 ou 1.

Na Secao 2.1, dissemos que para solucionar o Paradoxo da Loteria, vamos refutar

o princıpio de que um conjunto de sentencas aceitas racionalmente e dedutivamente fe-

chado. Isto e consequencia do fato de entendermos sentencas aceitas racionalmente como

sentencas com alto grau de certeza, alto valor de probabilidade. E, como veremos, cada

inferencia logica deve ser tratada individualmente para entendermos como o grau de in-

certeza das premissas desta inferencia se propagam para sua conclusao.

Vejamos um exemplo simples e imediato de propagacao de incerteza das premissas para

a conclusao. Para duas sentencas A e B e uma valoracao probabilıstica P , a seguinte lei

de probabilidades se aplica:

P (B) = P (A ∨B) + P (A→ B)− 1.

Podemos verificar facilmente esta lei observando as seguintes equacoes, que sao ba-

seadas nas descricoes de estado que formam as FNDs das sentencas em questao na lei

acima:

• P (B) = P (A ∧B) + P (¬A ∧B);

52

• P (A ∨B) = P (A ∧ ¬B) + P (A ∧B) + P (¬A ∧B);

• P (A→ B) = P (A ∧B) + P (¬A ∧B) + P (¬A ∧ ¬B);

• 1 = P (A ∧ ¬B) + P (A ∧B) + P (¬A ∧B) + P (¬A ∧ ¬B).

Agora, vamos analisar a inferencia formalizada pela consequencia logica classica:

A ∨B,A→ B ` B.

Tendo algum grau de incerteza sobre as premissas desta inferencia, representado pela

associacao de probabilidades atraves da valoracao P a cada uma delas, segue imediata-

mente, pela lei de probabilidades apresentada acima, qual o exato grau de incerteza que

devemos ter sobre a conclusao da inferencia, representado pela probabilidade

P (A ∨B) + P (A→ B)− 1.

Nesta inferencia e possıvel calcular exatamente como a incerteza sobre as premissas se

propaga para a conclusao. Porem, isto nem sempre e possıvel. Considere, por exemplo,

a inferencia conhecida como silogismo disjuntivo, formalizada pela consequencia logica

classica:

A ∨B,¬A ` B.

Poderıamos ter uma distribuicao de probabilidade para o conjunto A,B como:

• P1(A ∧B) = 0, 1;

• P1(¬A ∧B) = 0, 6;

• P1(A ∧ ¬B) = 0, 2;

• P1(¬A ∧ ¬B) = 0, 1;

e outra distribuicao de probabilidade para o mesmo conjunto como:

• P2(A ∧B) = 0;

• P2(¬A ∧B) = 0, 6;

• P2(A ∧ ¬B) = 0, 3;

• P2(¬A ∧ ¬B) = 0, 1.

Ambas as distribuicoes, P1 e P2, induzem a valoracao probabilıstica que tem como

casos:

• P (A ∨B) = P (A ∧B) + P (¬A ∧B) + P (A ∧ ¬B) = 0, 9;

• P (¬A) = P (¬A ∧B) + P (¬A ∧ ¬B) = 0, 7.

Assim, se representamos o grau de incerteza que temos sobre as premissas da inferencia

em questao por esta valoracao probabilıstica P e queremos saber como estas incertezas se

53

propagam na inferencia, nao poderemos encontrar um valor exato para a incerteza, pois

a valoracao probabilıstica P pode se comportar tanto como uma valoracao induzida por

P1 quanto uma valoracao induzida por P2:

• P1(B) = P1(A ∧B) + P1(¬A ∧B) = 0, 7;

• P2(B) = P2(A ∧B) + P2(¬A ∧B) = 0, 6.

O nosso estudo sobre a propagacao da incerteza seguira, portanto, na tentativa de

estimar qual a incerteza que podemos ter sobre a conclusao de uma inferencia ao inves de

calcula-la exatamente. Ate entao, estamos insistindo em falar de incerteza sobre sentencas,

pois nos parece mais natural do que dizer que temos um grau de certeza sobre elas, apesar

de ser isto que entendemos que as valoracoes probabilısticas representam. E claro que

estes termos estao intimamente ligados: se temos apenas um grau de certeza, que nao

absoluta, sobre uma sentenca, estamos, entao, incertos sobre ela. No entanto, a partir de

agora tomaremos a incerteza como um conceito relevante e vamos defini-la a partir da

nocao de probabilidade. Concordando com Adams (Ada98), temos como consequencia

que os proximos resultados, relacionando inferencias logicas com probabilidades, sao mais

facilmente enunciados em termos deste novo conceito.

As funcoes de incerteza sao outra maneira de perceber as valoracoes probabilısticas.

Elas medem a probabilidade de uma sentenca ser falsa e sao definidas assim: dada uma

valoracao probabilıstica P , a funcao de incerteza6 UP : L → R associada a ela e dada por

UP (ϕ) = 1− P (ϕ), para ϕ ∈ L.

A seguir, temos alguns lemas que tratam das funcoes de incerteza e, em seguida, um

teorema, originalmente demonstrado por Suppes (Sup66), que da um grande passo em

relacao ao entendimento da propagacao de incerteza em inferencias.

Lema 2.5.1. Sejam ϕ, ψ ∈ L tais que ` ϕ→ ψ e P uma valoracao probabilıstica. Entao,

UP (ψ) ≤ UP (ϕ).

Demonstracao. Pelo Teorema 2.2.1, temos que P (ϕ) ≤ P (ψ). Aplicando a definicao da

funcao de incerteza UP , segue o resultado.

Lema 2.5.2. Sejam ϕ1, . . . , ϕn ∈ L e P uma valoracao probabilıstica. Entao,

UP (ϕ1 ∧ · · · ∧ ϕn) ≤ UP (ϕ1) + · · ·+ UP (ϕn).

6O nome U da funcao de incerteza e devido ao termo em ingles uncertainty.

54

Demonstracao. Primeiro vamos mostrar para n = 2. Pelo Teorema 2.2.1, temos que

P (ϕ1) + P (ϕ2) = P (ϕ1 ∧ ϕ2) + P (ϕ1 ∨ ϕ2) e, pela definicao da funcao de incerteza UP ,

segue que UP (ϕ1) + UP (ϕ2) = UP (ϕ1 ∧ ϕ2) + UP (ϕ1 ∨ ϕ2). Assim, como nao e difıcil ver

que UP (ϕ1 ∨ ϕ2) ≥ 0, segue o resultado. Com este caso e por inducao, segue o resultado

para n qualquer.

Teorema 2.5.1. Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn ` ψ, entao, para uma valoracao

probabilıstica P ,

UP (ψ) ≤ UP (ϕ1) + · · ·+ UP (ϕn).

Demonstracao. Como ϕ1, . . . , ϕn ` ψ, temos que ` ϕ1 ∧ · · · ∧ϕn → ψ e, pelo Lema 2.5.1,

segue que UP (ψ) ≤ UP (ϕ1 ∧ · · · ∧ ϕn). Assim, com o Lema 2.5.2, segue o resultado.

Podemos estabelecer sobre a propagacao de incerteza, segundo a semantica proba-

bilıstica, que, em uma inferencia, a incerteza da conclusao nao excede a soma da incerteza

das premissas. E, entao, em qualquer inferencia em que ha qualquer grau de incerteza

sobre as premissas, podemos majorar a incerteza que podemos ter na conclusao. No

exemplo do silogismo disjuntivo dado ha pouco, temos que

UP (B) ≤ UP (A ∨B) + U(¬A) = (1− 0, 9) + (1− 0, 7) = 0, 4.

Neste exemplo, observamos duas valoracoes probabilısticas que modelam nossa in-

certeza sobre as premissas. As incertezas sobre a conclusao em cada uma delas e dada

por

• UP1(B) = 1− 0, 7 = 0, 3;

• UP2(B) = 1− 0, 6 = 0, 4.

As duas valoracoes, evidentemente, obedecem a majoracao do Teorema 2.5.1.

Vejamos, finalmente, como o Teorema 2.5.1 pode explicar o Paradoxo da Loteria, em

que tınhamos as sentencas A1, . . . , A1000 com probabilidades

P (An) =999

1000(n ∈ 1, . . . , 1000).

Valores de probabilidades tao altos que no raciocınio pratico faz estas sentencas serem

aceitas racionalmente e, se tomadas por premissas em uma inferencia, como a que e

formalizada pela consequencia logica

A1, . . . , A1000 ` A1 ∧ · · · ∧ A1000,

55

em que a conclusao sabemos ser falsa, chegamos a uma contradicao. Por outro lado, com

a ajuda do Teorema 2.5.1, temos a estimativa

UP (A1 ∧ · · · ∧ A1000) ≤1000∑n=1

UP (An) =1000∑n=1

1

1000= 1.

E verdade que esta estimativa nao lanca nenhuma luz sobre o verdadeiro valor de

UP (A1 ∧ · · · ∧ A1000), mas mostra que a semantica probabilıstica tambem nao aponta no

sentido de validar uma conclusao que e falsa. Desse modo, mostramos que ao aceitar

sentencas com alto valor de probabilidade como aceitas racionalmente, nao temos ne-

cessariamente o fecho dedutivo de um conjunto de sentencas justificadas. Ao contrario,

devemos proceder com a analise da propagacao de incerteza em inferencias que tomam

estas sentencas por premissas.

Notamos ainda que, em uma inferencia, nao e o pequeno grau de incerteza de cada

premissa que nos garantira um pequeno grau de incerteza da conclusao, mas sim o quanto

de incerteza e acumulado pelo conjunto de todas as premissas.

Outra aplicacao interessante do Teorema 2.5.1 e sobre a famosa inferencia Pseudo Sco-

tus : A,¬A ` B. E claro que, para qualquer valoracao probabilıstica P , UP (A)+UP (¬A) =

1 e, logo, UP (B) ≤ 1. Em LPC esta inferencia geralmente gera desconforto por admitir

que qualquer coisa seja concluıda das premissas, que nao sao necessariamente relacionadas

a conclusao. Podemos entender que na idealizacao de LPC, premissas contraditorias nao

poderiam existir, mas note que na semantica probabilıstica a conclusao que temos e que

P (B) ∈ [0, 1], o que nao diz nada sobre a probabilidade de B. Isto parece ser um resultado

mais confortavel, dado que nao ha nenhuma relacao das premissas com a conclusao.

Vejamos, agora, uma recıproca para o Teorema 2.5.1. Apesar de, no exemplo do

silogismo disjuntivo, existir uma funcao de incerteza que atinge a majoracao determinada

pelo Teorema 2.5.1, a saber, UP2 , este teorema nao garante que a majoracao determinada

e o maior valor que uma funcao de incerteza pode atingir. E, em geral, nao e o pior caso

de funcao de incerteza que conseguimos com este teorema.

Por exemplo, na inferencia representada pela consequencia logica

A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),

podemos associar a seguinte valoracao probabilıstica7, restrita as premissas, com sua

respectiva funcao de incerteza:

7Temos que P se trata, de fato, de uma valoracao probabilıstica. Para isto, basta definir uma dis-tribuicao de probabilidade sobre as descricoes de estado do conjunto A,B,C ou, entao, observar quequalquer associacao de probabilidades a um conjunto finito de sentencas atomicas induz uma valoracaoprobabilıstica, como mostra o Teorema 3.4.2. Do mesmo modo justificamos a valoracao probabilısticaintroduzida para chegar ao Paradoxo da Loteria, analoga a esta.

56

• P (A) = 0, 9;

• P (B) = 0, 9;

• P (C) = 0, 9;

• UP (A) = 0, 1;

• UP (B) = 0, 1;

• UP (C) = 0, 1.

Pelo Teorema 2.5.1, podemos majorar a incerteza da conclusao por

UP ((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ UP (A) + UP (B) + UP (C) = 0, 3.

Porem, pela consequencia logica

A,B ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),

podemos calcular uma outra majoracao para a incerteza da conclusao, que e a mesma da

inferencia original que estamos analisando:

UP ((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ UP (A) + UP (B) = 0, 2.

Nos casos em que a majoracao determinada pelo Teorema 2.5.1 e realmente o pior caso

possıvel que a funcao de incerteza pode atingir, como no exemplo do silogismo disjuntivo,

as premissas desta inferencia gozam da propriedade de serem premissas essenciais8: em

uma consequencia logica Γ ` ψ, em que Γ e um conjunto finito de sentencas de L, dizemos

que uma premissa ϕ ∈ Γ e uma premissa essencial se Γ \ ϕ 0 ψ. O proximo teorema,

uma recıproca parcial do Teorema 2.5.1, estabelece este resultado.

Teorema 2.5.2. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L e u1, . . . , un ≥ 0 numeros reais de

forma que u1 + · · ·+ un = 1. Entao, se ϕ1, . . . , ϕn ` ψ e as premissas desta consequencia

logica sao essenciais e logicamente compatıveis9, existe uma valoracao probabilıstica P tal

que UP (ϕi) = ui, para i = 1, . . . , n e

UP (ψ) = UP (ϕ1) + · · ·+ UP (ϕn).

Demonstracao. Vamos definir uma distribuicao de probabilidade sobre o conjunto K das

formulas atomicas A1, . . . , AJ que aparecem nas sentencas ϕ1, . . . , ϕn, ψ e vamos consi-

derar as FNDs destas sentencas em funcao das descricoes de estado do conjunto K.

Seja vi uma valoracao em que vi(ϕ1) = · · · = vi(ϕi−1) = vi(ϕi+1) = · · · = vi(ϕn) = 1

e vi(ϕi) = vi(ψ) = 0, para cada i = 1, . . . , n. Esta valoracao existe pois cada ϕi e uma

8Um conjunto de premissas essenciais que derivam a sentenca ψ e conhecido, na literatura, por kernelde ψ.

9Dizer que estas sentencas sao logicamente compatıveis significa que nao e o caso em que ` ¬(ϕ1 ∧· · · ∧ ϕn), generalizando definicao anterior dada na Secao 2.2.

57

premissa essencial na consequencia logica que estamos considerando. Sejam, agora, as

descricoes de estado Ki de K que contem os literais Aj, se vi(Aj) = 1 e os literais ¬Aj,se vi(Aj) = 0. Seja, tambem, v0 uma valoracao em que v0(ϕ1) = · · · = v0(ϕn) = 1, que

existe pois as formulas ϕ1, . . . , ϕn sao logicamente compatıveis e, a descricao de estado K0

aquela que contem os literais Aj quando v0(Aj) = 1 e os literais ¬Aj quando v0(Aj) = 0.

Definimos a distribuicao de probabilidade P por:

• P (K0) = 1− (u1 + · · ·+ un);

• P (Ki) = ui (i = 1, . . . , n);

• P (K ′) = 0, para todas as outras descricoes de estado.

Note que, como vi(Ki) = 1 e vi(ϕi) = 0, Ki nao aparece na FND de ϕi, para i =

1, . . . , n. Por outro lado, quando i 6= j, vi(ϕj) = vi(Ki) = 1 e, entao, Ki aparece na FND

de ϕj. Note, tambem, que v0(ϕi) = 1 e v0(K0) = 1, para i = 1, . . . , n e, entao, K0 aparece

na FND de ϕi, para i = 1, . . . , n. Portanto, para i = 1, . . . , n, temos que

P (ϕi) = [1− (u1 + · · ·+ un)] + [u1 + · · ·+ ui−1 + ui+1 + · · ·+ un] = 1− ui.

Agora, note que, como vi(Ki) = 1 e vi(ψ) = 0, Ki nao aparece na FND de ψ, para

i = 1, . . . , n. Por outro lado, como ϕ1, . . . , ϕn ` ψ, temos que v0(ψ) = 1. Junto a isto,

como v0(K0) = 1, segue que K0 faz parte da FND de ψ. Portanto, temos que

P (ψ) = 1− (u1 + · · ·+ un).

Finalmente, temos a funcao de incerteza UP em que

UP (ϕi) = 1− (1− ui) = ui (i = 1, . . . , n)

e, tambem,

UP (ψ) = 1− [1− (u1 + · · ·+ un)] = u1 + · · ·+ un = UP (ϕ1) + · · ·+ UP (ϕn).

O Teorema 2.5.2 e uma recıproca parcial do Teorema 2.5.1 pois, apesar de garantir

que a majoracao e o pior caso possıvel de incerteza da conclusao em algumas inferencias,

nao garante para todas. De fato, na consequencia logica

A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),

58

nenhuma das premissas - A, B ou C - e essencial e, como vimos, a aplicacao do Teorema

2.5.1 nao nos oferece o pior caso de incerteza.

Porem, mesmo fazendo uso da consequencia

A,B ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),

em que as premissas sao essenciais, nao obtemos o pior caso de incerteza pois, quando

deixamos de considerar as tres premissas originais, perdemos informacoes que poderiam

diminuir mais ainda a majoracao. No Capıtulo 3 teremos condicoes de calcular o pior

caso possıvel de incerteza para este exemplo.

2.6 Consequencia probabilıstica de Adams

Apesar de a majoracao que conseguimos calcular para a incerteza da conclusao de

uma inferencia nao ser otima, no sentido que nao existe necessariamente uma funcao de

incerteza que a atinja, o Teorema 2.5.1 exprime de maneira simples e muito elucidativa

o comportamento da propagacao de incerteza nas inferencias. De tao elucidativo, este

resultado nos leva a definir outra relacao de consequencia probabilıstica para as sentencas

de L baseada na semantica probabilıstica, assim como Adams (Ada98).


probabilıstica de Adams, denotada por

ϕ1, . . . , ϕn |=A ψ,

e definida da seguinte maneira: para toda valoracao probabilıstica P temos que

UP (ψ) ≤n∑i=1

UP (ϕi).

Com a relacao de consequencia probabilıstica de Adams, temos outro sistema de logica

probabilıstica. Ja sabemos, pelo Teorema 2.5.1, que toda consequencia logica de LPC e

tambem uma consequencia probabilıstica deste sistema ou, entao, que LPC e correto para

a relacao de consequencia probabilıstica de Adams. E interessante que, alem disso, LPC

tambem e completo para esta relacao de consequencia, como podemos ver no proximo

resultado.

Teorema 2.6.1 (Completude). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn |=A ψ, entao

ϕ1, . . . , ϕn ` ψ.

59

Demonstracao. Seja v uma valoracao da semantica bivalorada de LPC em que v(ϕ1) =

· · · = v(ϕn) = 1. Pelo Lema 2.4.2, esta valoracao e tambem uma valoracao probabilıstica.

Assim, temos na funcao de incerteza associada a v, Uv(ϕ1) = · · · = Uv(ϕn) = 0. Agora,

assumindo que ϕ1, . . . , ϕn |=A ψ, segue que Uv(ψ) = 0. Ou seja, v(ψ) = 1 e temos que

ϕ1, . . . , ϕn ` ψ.

Mais uma vez, o sistema de logica probabilıstica em que chegamos e equivalente a

LPC. Por um lado, sobre a propagacao de incerteza, temos que a consequencia logica e

forte o suficiente para garantir que a sua conclusao e no maximo tao incerta quanto a

incerteza acumulada pelas premissas. Este foi o aclamado resultado do Teorema 2.5.1.

Por outro lado, considerando a consequencia probabilıstica de Adams, notamos que,

dadas incertezas sobre um conjunto de sentencas Γ, se com isto pudermos garantir que

uma outra sentenca ψ nao podera ser tao incerta quanto a incerteza acumulada pelas

primeiras, garantimos tambem que a verdade se propaga de Γ para ψ, no sentido da

logica classica.

Capıtulo 3

Valoracoes Probabilısticas eEstimativas de Probabilidade

Este capıtulo aprofunda os estudos sobre as valoracoes probabilısticas utilizando, para

representa-las, a linguagem da algebra linear. Com tal representacao, sera possıvel apre-

sentar o metodo de Hailperin para calcular o maior e o menor valores possıveis da pro-

babilidade de uma sentenca ψ ∈ L, dadas as probabilidades de um conjunto finito de

sentencas (Hai65).

Este metodo podera, entao, ser usado para calcular a majoracao e, agora tambem, a

minoracao otimas da incerteza da conclusao de uma inferencia, dadas as incertezas das

premissas.

Discutiremos, tambem, o Problema da Satisfatibilidade Probabilıstica e, ao final, es-

tudaremos a relacao de consequencia probabilıstica definida por Hailperin fazendo uso de

seu metodo de estimativa.

3.1 Pior caso e aceitacao racional

No Capıtulo 2, vimos o importante Teorema de Suppes (2.5.1), que determina uma

majoracao para a incerteza da conclusao de uma inferencia. No entanto, ao enunciar uma

recıproca para este teorema, nao se consegue mais do que uma recıproca parcial. Para

garantir a existencia de uma funcao de incerteza que atinja, na conclusao, a majoracao

determinada pelo resultado de Suppes, devemos garantir, tambem, que as premissas da

inferencia sejam essenciais, conforme definicao da Secao 2.5.

Nao e o caso, por exemplo, da inferencia exibida na Secao 2.5, atraves da consequencia

logica

A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),

em que, com incertezas U(A) = U(B) = U(C) = 0, 1, conseguimos, no maximo, a

60

61

estimativa

U((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ 0, 2.

E, mesmo assim, conseguimos esta estimativa utilizando o artifıcio de abandonar uma das

hipoteses A, B ou C, ja que isso nao impacta na derivacao da conclusao. Como veremos,

ao abandonar uma hipotese, perdemos informacoes sobre as valoracoes probabilısticas e

nao conseguimos calcular o pior caso da incerteza.

Quanto a importancia de calcular efetivamente o pior caso da incerteza sobre uma

sentenca, observamos que, quanto menor a majoracao da incerteza de uma sentenca,

maior confianca temos em sua veracidade. Portanto, sabermos o pior caso da incerteza de

uma sentenca pode fazer toda diferenca ao decidir que acao tomar frente a esta informacao.

Por exemplo, com uma majoracao de 0, 3 para a incerteza de uma sentenca, um indivıduo

pode querer evitar uma certa atitude que tomaria se tivesse uma majoracao de 0, 15.

Kyburg, em (Kyb97), observa que uma estrutura convencional de testes estatısticos

em psicologia e medicina consiste em, ao testar a chamada hipotese nula H0 (que re-

presenta “sem efeito”), demarcar uma pequena margem de erro ε, de modo que, se a

hipotese testada for verdadeira, somente em uma fracao dos testes menor que ε, obtere-

mos evidencias contrarias a hipotese. Ou seja, a probabilidade de uma amostra do teste

rejeitar falsamente a hipotese H0 e menor do que ε ou, ainda, a probabilidade de uma

amostra verificar a hipotese verdadeira H0 e 1− ε.Sobre o valor de ε, Kyburg pondera que o que e considerado uma pequena margem de

erro em um contexto, pode nao ser em outro. Mas, acertado o valor da margem de erro,

podemos ficar confortaveis ao supor que o resultado do experimento nao esta enganado

desde que a fracao de testes que contrariam o resultado nao passem esta margem. Em

outras palavras, a hipotese e racionalmente aceita.

Nao e difıcil conceber uma extrapolacao do criterio estatıstico observado por Kyburg

para um criterio simples de aceitacao racional de uma sentenca baseado em probabilidades:

tomando um valor ε ∈ [0, 1], estabelecemos que uma sentenca ϕ ∈ L esta racionalmente

aceita se U(ϕ) ≤ ε ou, equivalentemente, se P (ϕ) ≥ 1 − ε. Quanto menor o valor de ε,

mais rıgido e o criterio para aceitar racionalmente uma sentenca.

Logo, ao associarmos incertezas as premissas de uma inferencia, pode ser de grande

interesse, em varios contextos, sabermos qual o pior caso, o maior grau de incerteza, que a

conclusao desta inferencia pode assumir, dentre todas as possibilidades de configuracao de

nossa incerteza sobre as sentencas, ou seja, dentre todas as funcoes de incerteza possıveis.

Equivalentemente, dentre todas as valoracoes probabilısticas possıveis.

O principal objetivo deste capıtulo e buscar um metodo para calcular a majoracao

62

otima da incerteza (i.e., o pior caso possıvel que a incerteza pode assumir). Seguindo

Hailperin, vamos trabalhar somente com as valoracoes probabilısticas e, a partir de agora,

abandonaremos, salvo caso de comparacao com exemplos anteriores, as funcoes de incer-

teza. Estas funcoes haviam sido definidas para deixar resultados, como o Teorema de

Suppes, menos carregados de notacao. Com a investigacao via algebra linear das va-

loracoes probabilısticas, dificilmente conseguiremos tal fim novamente.

Portanto, o objetivo passa a ser encontrar uma minoracao otima da probabilidade.

Como veremos, o calculo da minoracao otima da probabilidade de ψ ∈ L e equivalente

ao calculo da majoracao otima da probabilidade de ¬ψ. Desenvolveremos, entao, um

metodo para a majoracao, com o intuito de aplica-lo no calculo da minoracao. No fim,

com ambas majoracao e minoracao, obtemos um intervalo em que a probabilidade se

encontra. Chamamos este intervalo de estimativa (otima) da probabilidade.

3.2 Algebra linear e valoracoes probabilısticas

O calculo da estimativa otima da probabilidade de uma sentenca, dadas as proba-

bilidades de outras sentencas, acontecera no contexto da algebra linear e da otimizacao

linear 1. Para isso, nosso primeiro passo sera a algebrizacao das valoracoes probabilısticas.

A seguir, vamos expressar algebricamente alguns valores de probabilidade e algumas pro-

priedades das valoracoes probabilısticas.

Sejam ϕ1, . . . , ϕm, ψ ∈ L sentencas compostas pelas sentencas atomicas A1, . . . , An e

P uma valoracao probabilıstica que toma os valores

P (ϕi) = ai ∈ [0, 1] (i = 1, . . . ,m).

Como P (ψ) tem o mesmo valor de P para a FND canonica2 de ψ, vamos supor que

ψ ja esta em sua FND canonica. Alem disso, sendo Kj (j = 1, . . . , 2n) as descricoes de

estado do conjunto A1, . . . , An, vamos convencionar

P (Kj) = kj (j = 1, . . . , 2n).

Temos, entao, que

P (ψ) =2n∑j=1

δ(ψ)j kj = δ(ψ)k,

1Nao sera exigido, para a compreensao deste texto, conhecimento profundo de nenhuma destas discipli-nas. Para a algebra linear, basta a familiaridade com as notacoes de sistemas lineares, matrizes, vetorese com as operacoes de multiplicacao, adicao, transposicao e inversao sobre matrizes. Recomendamos(CDC07) como referencia para estes assuntos. Sobre otimizacao linear, o necessario para a compreensaoencontra-se no Apendice B.

2Lembramos que os resultados que nos permitem trabalhar com FNDs, FNDs canonicas e composicaode FNDs em termos de descricoes de estado se encontram no Apendice A.

63

em que δ(ψ)k e o produto do vetor linha δ(ψ) = [δ(ψ)1 , . . . , δ

(ψ)2n ] pelo vetor coluna k =

[k1, . . . , k2n ]T e

δ(ψ)j =

1, se ` Kj → ψ0, se ` Kj → ¬ψ

(j = 1, . . . , 2n).

Por outro lado, as probabilidades das sentencas ϕi (i = 1, . . . ,m) podem ser expressas

algebricamente por

P (ϕi) =2n∑j=1

aijkj, (i = 1, . . . ,m), (3.1)

em que

aij =

1, se ` Kj → ϕi0, se ` Kj → ¬ϕi

(i = 1, . . . ,m; j = 1, . . . , 2n).

Note que o vetor δ(ψ) e o responsavel para que se some somente as probabilidades das

descricoes de estado que compoem a FND de ψ no produto δ(ψ)k. Da mesma forma, as

constantes aij garantem que a formula (3.1) realmente expresse a probabilidade de ϕi. As

propriedades2n∑j=1

kj = 1, (3.2)

kj ≥ 0 (j = 1, . . . , 2n), (3.3)

que ja sabemos terem que ser satisfeitas, tambem nos serao uteis. Agora, escrevemos

(3.1), (3.2) e (3.3) na forma matricial

Ak = a+, (3.4)

k ≥ 0, (3.5)

em que a+ = [a1, . . . , am, 1]T (extensao de a = [a1, . . . , am]T ), e

A =

a11 · · · a12n

.... . .

...am1 . . . am2n

1 · · · 1

.Vejamos alguns exemplos destas expressoes para alguns casos. Seja ψ(A,B,C) =

A∨B → C de modo que P (A) = a, P (B) = b e P (C) = c. Enumeremos as descricoes de

estado de A,B,C:

• K1 = A ∧B ∧ C;

• K2 = ¬A ∧B ∧ ¬C;

• K3 = A ∧ ¬B ∧ C;

• K4 = A ∧ ¬B ∧ ¬C;

• K5 = ¬A ∧B ∧ C;

• K6 = A ∧B ∧ ¬C;

• K7 = ¬A ∧ ¬B ∧ C;

• K8 = ¬A ∧ ¬B ∧ ¬C.

64

Como a FND de ψ e K1 ∨K3 ∨K5 ∨K7 ∨K8, temos o vetor δ(ψ) = [1, 0, 1, 0, 1, 0, 1, 1] e,

portanto,

δ(ψ)k = k1 + k3 + k5 + k7 + k8.

Temos, tambem,

δ(¬ψ)k = k2 + k4 + k6.

Tendo em mente que cada sentenca atomica de ψ e equivalente a disjuncao das descricoes

de estado em que ela nao aparece negada, montamos facilmente a expressao (3.4):

Ak =

1 0 1 1 0 1 0 01 1 0 0 1 1 0 01 0 1 0 1 0 1 01 1 1 1 1 1 1 1

k1

k2

k3

k4

k5

k6

k7

k8

=

abc1

= a+.

Considerando, agora, ψ(A,B,C) = (A∧B)∨ (A∧C)∨ (B∧C), ainda com P (A) = a,

P (B) = b e P (C) = c, podemos aproveitar a enumeracao das descricoes de estado feita

acima, a expressao (3.4) e a mesma do exemplo anterior e, como a FND de ψ agora e

K1 ∨K3 ∨K5 ∨K6, segue que

δ(ψ)k = k1 + k3 + k5 + k6.

Tambem,

δ(¬ψ)k = k2 + k4 + k7 + k8.

Para o ultimo exemplo, vamos considerar ψ(A,B) = B → A e ϕ(A,B) = A → B de

modo que P (A→ B) = a. Enumeremos as descricoes de estado de A,B:

• K1 = A ∧B;

• K2 = ¬A ∧B;

• K3 = A ∧ ¬B;

• K4 = ¬A ∧ ¬B.

As FNDs das sentencas que consideramos sao dadas por:

• ` ϕ↔ K1 ∨K2 ∨K4;

• ` ψ ↔ K1 ∨K3 ∨K4.

Portanto, temos

δ(ψ)k = k1 + k3 + k4.

65

Temos, tambem,

δ(¬ψ)k = k2

e

Ak =

[1 1 0 11 1 1 1

]k1

k2

k3

k4

=

[a1

]= a+.

3.3 Majoracao e minoracao otimas

Com a algebrizacao da secao anterior, vamos enunciar um problema de otimizacao

linear equivalente ao problema de encontrar as melhores majoracao e minoracao de P (ψ)

dadas as probabilidades P (ϕi) = ai (i = 1, . . . ,m) de outras sentencas. Focaremos na

questao da majoracao otima e, no final da secao, falaremos da minoracao.

A ψ e a ϕi estao associadas as expressoes δ(ψ)k e Ak = a+. Podemos entender que,

se variamos os valores de k ∈ Rn2, temos uma funcao q = δ(ψ)k. A majoracao otima

do valor de P (ψ) e justamente o valor maximo da funcao q = δ(ψ)k, dadas as restricoes

Ak = a+ e k ≥ 0. Seguimos na justificacao deste enunciado.

Seja o conjunto

α = p : p = P (ψ) em que, para alguma valoracao probabilıstica P , P (ϕi) = ai.

Se α possuir um maior elemento, este sera a majoracao otima para a probabilidade de ψ.

De fato, se α 6= ∅, ele possui um maior elemento, mas a demonstracao deste resultado,

encontrada em (Hai65), envolve varios conceitos matematicos que nao sao abordados neste

texto e, por isso, a omitimos.

Definimos, tambem, o conjunto

β = q : q = δ(ψ)k em que, para algum k ∈ R2n , k ≥ 0 e Ak = a+ .

β e a colecao de todos os valores que a funcao q = δ(ψ)k pode assumir e, se ele possuir

um maior elemento, sera a solucao do problema de otimizacao linear que enunciamos logo

acima. Portanto, para identificar o problema inicial da majoracao otima com o problema

de otimizacao linear, basta mostrarmos que α = β.

Teorema 3.3.1. α = β.

Demonstracao. Seja p ∈ α. Entao, pela definicao de α, existe uma valoracao proba-

bilıstica P com as propriedades que definem este conjunto. Tomamos o vetor k =

66

[P (K1), . . . , P (K2n)]T , em que Kj (j = 1, . . . , 2n) sao as descricoes de estado do con-

junto A1, . . . , An. Com este vetor k e com toda discussao que levou a construcao dos

vetores a+ e δ(ψ) e da matriz A na secao anterior, segue que p ∈ β.

Agora, seja q ∈ β. Pela definicao de β, existe um vetor k = [k1, . . . , k2n ] ∈ R2n com,

entre outras consequencias da definicao deste conjunto, as propriedades de kj ∈ [0, 1],

para j = 1, . . . , 2n e de que a soma de todos os kj e 1. Podemos garantir, pelo Teorema

3.4.2, que existe uma valoracao probabilıstica P de modo que P (Kj) = kj (j = 1, . . . , 2n),

em que Kj sao as descricoes de estado do conjunto A1, . . . , An.Considerando que a FND de cada ϕi (i = 1, . . . ,m) esta representada pela linha i da

matriz A e pelo fato de Ak = a+, segue que P (ϕi) = ai (i = 1, . . . ,m). Finalmente,

pela construcao do vetor δ(ψ) e pelo fato de δ(ψ)k = q, segue que P (ψ) = q e, portanto,

q ∈ α.

Analisemos um aspecto importante do problema. Dado o vetor a = [a1, . . . , am]T com

elementos em [0, 1], esta colocado um problema de majorar P (ψ) dados P (ϕi) = ai. Como

dissemos, se α 6= ∅, este conjunto possui um maior elemento e o problema tera solucao.

Mas, ainda, resta garantir que existe ao menos um elemento em α, ou seja, existe ao

menos uma valoracao probabilıstica P , tal que P (ϕi) = ai. Esta questao, de garantir que

as associacoes de probabilidades feitas as sentencas sao coerentes, sera tratada na Secao

3.4.

Vamos tratar, agora, da questao da minoracao otima de P (ψ). A cada vetor a =

[a1, . . . , am]T ∈ Rm para o qual existe solucao do problema da majoracao, vamos denotar

o valor desta solucao por Mψ(a1, . . . , am).

Para encontrar o menor valor possıvel que P (ψ) pode tomar, dados os valores P (ϕi) =

ai, observamos que, dados estes valores, conseguimos calcular M¬ψ(a1, . . . , am). Assim,

P (¬ψ) ≤M¬ψ(a1, . . . , am).

Como P (¬ψ) = 1− P (ψ), manipulando esta desigualdade, temos

1−M¬ψ(a1, . . . , am) ≤ P (ψ).

Portanto, com a seguinte definicao da funcao de minoracao:

mψ(a1, . . . , am) = 1−M¬ψ(a1, . . . , am),

temos que o problema de obter o menor valor possıvel de P (ψ) se reduz a questao de

encontrar o maior valor possıvel de P (¬ψ).

67

Estamos no caminho de cumprir a proposta de apresentar um metodo efetivo para o

calculo da majoracao otima do valor de P (ψ). A efetividade do calculo repousa sobre a

Teoria de Otimizacao Linear. Abordaremos, na Secao 3.5, a questao da computacao da

funcao Mψ.

3.4 O problema da Satisfatibilidade Probabilıstica

Na Secao 3.3 chegamos a um impasse sobre o calculo da estimativa otima da probabi-

lidade de uma sentenca ψ: o problema de otimizacao linear que apresentamos somente faz

sentido quando temos o conjunto α 6= ∅. Caso contrario, nenhum vetor k satisfaz as res-

tricoes do problema. Equivalentemente, nao existe valoracao probabilıstica satisfazendo

as associacoes iniciais de probabilidades as sentencas ϕi.

Anterior a esta questao, todos os exemplos de associacao de probabilidades a sentencas

que demos no decorrer deste texto necessitam de justificativa quanto a existencia de uma

valoracao probabilıstica que a satisfaz.

Chamamos o problema da avaliacao da coerencia de valores de probabilidade associ-

ados a sentencas de Problema da Satisfatibilidade Probabilıstica, abreviado por PSAT.

Dado um conjunto finito de sentencas ϕ1, . . . , ϕn ⊂ L e valores de probabilidade

p1, . . . , pn ∈ [0, 1], o PSAT e definido como a questao de decidir sobre a existencia de

uma valoracao probabilıstica P tal que P (ϕi) = pi, para i = 1, . . . , n3.

Ate entao, os exemplos em que associamos valores de probabilidades a sentencas eram

de dois tipos: ou associamos probabilidades a sentencas atomicas ou exibimos uma dis-

tribuicao de probabilidade que induz os valores de probabilidades dados as sentencas. O

calculo e feito deste modo pois em ambos os casos podemos garantir a satisfatibilidade

probabilıstica (i.e., podemos garantir que as sentencas em questao podem tomar os va-

lores dados devido a existencia de uma valoracao probabilıstica), como mostraremos nos

proximos resultados.

O resultado a seguir garante a coerencia de valores de probabilidades, desde que estas

sejam fundamentados por uma distribuicao de probabilidade.

Teorema 3.4.1. Seja P uma distribuicao de probabilidade para as descricoes de estado do

conjunto α = A1, . . . , An ⊂ L. Entao, existe uma valoracao probabilıstica PE : L → Rtal que PE ±A1 ∧ · · · ∧ ±An = P .

3O PSAT e a generalizacao natural do Problema da Satisfatibilidade, o SAT: o problema de decidir se,dado um conjunto finito de sentencas ϕ1, . . . , ϕn ⊂ L, existe uma valoracao classica v tal que v(ϕi) = 1,para i = 1, . . . , n.

68

Demonstracao. Sendo o conjunto Γ ⊂ N = 1, . . . , n, definimos a valoracao proba-

bilıstica PE : L → R pelas seguintes clausulas:

• PE(ϕ) = P (ϕ), se ϕ for uma descricao de estados de α;

• PE(∧i∈Γ A

′i) =

∑± P (

∧i∈ΓA

′i ∧∧i∈N\Γ±Ai), em que A′i ∈ Ai,¬Ai;

• PE(∧i∈Γ A

′i∧ϕ) = 0, se ϕ for uma sentenca atomica ou uma descricao de estados com

ao menos um literal que nao seja negado, e nao for formada por nenhum elemento

de α;

• PE(∧i∈Γ A

′i ∧ ϕ) = PE(

∧i∈Γ A

′i), se ϕ for um literal negado ou uma descricao de

estados composta somente por literais negados, e nao for formada por nenhum

elemento de α;

• PE(ϕ) = 0, se ϕ nao se encaixa em nenhum caso anterior e for uma sentenca atomica

ou uma descricao de estados com ao menos um literal que nao seja negado;

• PE(ϕ) = 1, se ϕ nao se encaixa em nenhum caso anterior e for um literal negado ou

uma descricao de estados composta somente por literais negados;

• PE(ϕ) = 0, se ϕ for uma contradicao;

• PE(ϕ) =∑

i P (di(ϕ)), em que di(ϕ) sao as descricoes de estado da FND canonica

equivalente a ϕ, se ϕ nao se encaixa nos casos anteriores.

Vamos agora mostrar que PE satisfaz os axiomas K1-K3 da Definicao 2.2.1.

PE e nao-negativa em qualquer caso de sua definicao. Em particular, para qualquer

descricao de estado e, no ultimo caso, para um sentenca ϕ ∈ L,

PE(ϕ) =∑i

PE(di(ϕ)) ≥ 0.

Se ` ϕ, pela construcao canonica, a FND de ϕ e formada por todas as descricoes de

estado do conjunto das sentencas atomicas que a compoem. Este conjunto β de sentencas

atomicas pode satisfazer qualquer das situacoes: β = α, β ( α, α ⊂ β ou β ∩ α = ∅.As seis primeiras clausulas da definicao de PE contemplam todos estes casos e deste fato,

combinado com a definicao de distribuicao de probabilidade, segue que PE(ϕ) = 1.

Finalmente, para mostrar K3, seguimos a mesma estrategia que usamos no Teorema

2.4.1. Estendemos a FND canonica de ϕ para uma FND fϕ que contenha todas as

descricoes de estado das sentencas atomicas que compoem ϕ e ψ. Nesta extensao, e

importante que PE(ϕ) = PE(fϕ), o que e garantido pela definicao de PE.

69

Fazendo a construcao analoga com ψ, segue que a disjuncao das duas e exatamente a

FND canonica de ϕ ∨ ψ e, pelo fato de ` ¬(ϕ ∧ ψ), segue que nas FNDs construıdas nao

se repete nenhuma descricoes de estado. Portanto, PE(ϕ ∨ ψ) = PE(ϕ) + PE(ψ).

O proximo resultado deste tipo, a seguir, garante que quaisquer valores de probabili-

dades que associamos a um conjunto de sentencas atomicas e coerente.

Teorema 3.4.2. Seja α = A1, . . . , An um conjunto finito de sentencas atomicas de Lde forma que sao associadas probabilidades a cada elemento de α por P (Ai) = ai ∈ [0, 1],

para i = 1, . . . , n. Entao, existe uma valoracao probabilıstica PA : L → R de forma que

PA α = P .

Demonstracao. Definiremos uma distribuicao de probabilidade PA para as descricoes de

estado de α que pelo Teorema 3.4.1, podera ser estendida a uma valoracao probabilıstica.

Para isto, supomos, sem perda de generalidade, que a1 ≤ · · · ≤ an e a distribuicao PA e

definida por:

• PA(A1 ∧ · · · ∧ An) = a1;

• PA(¬A1 ∧ A2 ∧ · · · ∧ An) = a2 − a1;

• PA(¬A1 ∧ · · · ∧ ¬Am−1 ∧ Am ∧ · · · ∧ An) = am − am−1;

• PA(¬A1 ∧ · · · ∧ ¬An) = 1− an;

• PA(±A1∧ · · · ∧±An) = 0, para as demais descricoes de estado que nao se encaixam

nos itens acima.

PA e, de fato, uma distribuicao de probabilidade pois, definindo a0 = 0 e an+1 = 1,

temos que ∑±

P (±A1 ∧ · · · ∧ ±An) =n+1∑i=1

ai − ai−1 = 1.

Agora, ignorando as probabilidades de descricoes de estado que sao nulas, temos

tambem que

PA(Ai) =∑±

PA(±A1 ∧ · · · ∧ Ai ∧ · · · ∧ ±An) =

= P (A1 ∧ · · · ∧ An) + P (¬A1 ∧ A2 ∧ · · · ∧ Ai ∧ · · · ∧ An) + · · ·+

+P (¬A1 ∧ · · · ∧ ¬Ai−1 ∧ Ai ∧ · · · ∧ An) =i∑

j=1

aj − aj−1 = ai.

70

O Teorema 3.4.2 garante que sempre podemos efetuar o calculo do problema da secao

anterior no caso em que as sentencas ϕi sejam atomicas, pois teremos α 6= ∅. Para os

demais casos, ainda e preciso resolver o PSAT para proceder. Na proxima secao, veremos

um metodo de computacao da funcao Mψ que, alem de calcular o valor da funcao, tambem

resolve o PSAT.

Ainda sobre o PSAT, devemos lembrar que foi originalmente formulado por G. Boole

(Boo54) e foi introduzido na comunidade cientıfica da ciencia da computacao e da inte-

ligencia artificial por Nilsson (Nil86; Nil93). Nossa justificativa para estudar o PSAT e

completamente teorica, como justificado no inıcio desta secao e na Secao 3.3. Contudo,

este problema tem um consideravel potencial de aplicacoes como em modelos computaci-

onais para processos biologicos, aprendizado de maquina, economia, econometria, etc.

Portanto, apesar de nossa proposta de solucao atraves do Teorema 3.4.1 ser um tanto

“artesanal”, dado que e necessario procurar valores (a mao, no caso dos nossos exemplos)

para uma distribuicao de probabilidade a fim de justificar a satisfatibilidade, por seu

grande interesse computacional, esforcos tem sido feitos para descrever um algoritmo

eficiente para a resolucao do PSAT e para entender sua relacao com o SAT, ja que ambos os

problemas tem mesma complexidade computacional. M. Finger e G. De Bona investigam

questoes como estas em (FDB10), (FDB11) e (FDB15).

3.5 Computacao de Mψ e mψ

Definidas as funcoes4 Mψ e mψ, vamos tratar da efetividade de sua computacao, lem-

brando que basta focarmos na computacao de Mψ. O calculo destas funcoes e dado

pela resolucao de um problema de otimizacao linear, portanto podemos utilizar qualquer

metodo dedicado a resolver este tipo de problema para efetivar a computacao. Vamos

apresentar um dos metodos possıveis5.

Primeiro, colocamos o problema de encontrar o maximo da funcao

q = δ(ψ)k,

com as restricoes Ak = a+ e k ≥ 0 na forma standard (Apendice B, Secao B.1). Para

isso, observamos que as restricoes Ak = a+ sao equivalentes as restricoes Ak ≤ a+ e

4Sabemos que Mψ e mψ nao sao necessariamente definidas para todos os vetores a = [a1, . . . , am]T ,pois nem todos estes valores sao probabilidades satisfatıveis. Mesmo assim, chamamos Mψ e mψ defuncoes pois entendemos que os vetores em que elas nao sao definidas nao estao em seus domınios.

5Nesta secao e feito o uso mais aprofundado da Teoria de Otimizacao Linear neste trabalho. Todosos termos e resultados referidos aqui se encontram definidos e enunciados no Apendice B.

71

Ak ≥ a+. Entao, podemos reescreve-las na forma matricial[A−A

]k ≤

[a+

−a+

].

Agora, destas restricoes, temos que k1 + · · · + k2n = 1 e ki ≥ 0 (i = 1, . . . , 2n) e,

portanto, |ki| ≤ 1 (i = 1, . . . , 2n). Entao, pelo Teorema B.3.1, segue que, se o problema

de otimizacao linear for satisfatıvel, sua solucao se encontrara em um dos pontos extremos

do poliedro definido pelas suas restricoes.

Logo, basta encontrar todos os pontos extremos deste poliedro e calcular o valor da

funcao q em cada um deles, conforme algoritmo apresentado na Secao B.3. O maior destes

valores sera o valor de Mψ(a1, . . . , am). Note que se o poliedro nao possuir nenhum ponto

extremo, a regiao sobre a qual esta definido o problema de otimizacao nao e satisfatıvel.

E isso somente pode ser uma consequencia de termos o conjunto α 6= ∅, ou seja, da

atribuicao de probabilidades as sentencas ϕi nao ser satisfatıvel. Dessa forma, este metodo

nos retorna uma solucao negativa do problema PSAT6.

Pode parecer que para calcular a funcao Mψ(a1, . . . , am) e necessario resolver infinitos

problemas de otimizacao linear, cada um dado por um vetor a = [a1, . . . , am]T . Vamos

mostrar outro metodo de calculo, no qual isso nao se faz necessario, por conta do Teorema

Dual (B.2.1). O interesse nesse metodo e que poderemos expressar estimativas otimas para

ψ em funcao do vetor a, como nos exemplos do final desta secao.

A forma dual do problema original e o problema de minimizar a funcao

Q =

[a+

−a+

]Tw,

sujeita as restricoes [A−A

]Tw ≥ δ(ψ)T e w ≥ 0,

em que w = [w1, . . . , w2(n+1)]T e a variavel livre da funcao Q. Portanto, pelo Teorema

Dual, se o problema original tem solucao k∗, o problema dual tem solucao w∗ e

k∗ = w∗.

A partir de agora, com o intento de calcular o valor de Mψ(a1, . . . , am), vamos nos

voltar ao calculo do mınimo da funcao Q sujeita as restricoes apresentadas. Para simplifi-

car, definimos os vetores u = [u1, . . . , um+1]T e v = [v1, . . . , vm+1]T , de modo que ui = wi,

6Neste paragrafo, estamos usando a palavra satisfatıvel em dois contextos diferentes. Em um deles,estamos falando que a regiao definida pelas restricoes de um problema de otimizacao linear e vazia, comodefinido no Apendice B. No outro, estamos nos referindo a satisfatibilidade do problema PSAT. Veja queambos os casos estao relacionados.

72

para i = 1, . . . ,m+ 1, e vi = wi, para i = m+ 2, . . . , 2(m+ 1), e observamos que[a+

−a+

]Tw =

[a+T −a+T

] [ uv

]= a+T (u− v)

e [A−A

]Tw =

[AT −AT

] [ uv

]= AT (u− v).

Assim, definindo o vetor x = u−v, para solucionar o problema dual e suficiente encontrar

o mınimo de

Q = a+Tx

com as restricoes

ATx ≥ δ(ψ)T ,

nao sendo necessaria a clausula de nao negatividade pois, dado um valor x∗ que soluciona

o problema, e possıvel escrever x∗ = u∗ − v∗ com u∗,v∗ ≥ 0.

Pelo Teorema B.3.2, se a regiao definida pelas restricoes deste problema de otimizacao

linear possuir um ponto extremo e garantirmos que este problema possui solucao, sua

solucao se encontra em um dos pontos extremos desta regiao. Supondo que seja o caso,

sendo os r pontos extremos dados por

xc = [xc1, . . . , xcm+1]T (c = 1, . . . , r),

temos a seguinte expressao:

Mψ(a1, . . . , am) = minc=1,...,r

a+Txc.

Logo, dada uma sentenca ψ, basta calcularmos todos os pontos extremos da regiao

definida por ψ, atraves das restricoes ATx ≥ δ(ψ)T e, assim, o valor de Mψ e dado pelo

elemento mınimo de um conjunto finito.

A pendencia que permanece neste metodo e de garantir a existencia de solucao para o

problema de otimizacao linear. Nem que encontremos pontos extremos na regiao definida

pelas restricoes, podemos garantir que o problema e soluvel. Para prosseguir com esta

abordagem, segundo o Teorema B.3.2, e necessario garantir a coerencia das atribuicoes

de probabilidades e, ainda, encontrar ao menos um ponto extremo na regiao em questao.

As restricoes do primeiro problema apresentado na Secao 3.2 na forma dual se tornam:

ATx =

1 1 1 10 1 0 11 0 1 11 0 0 10 1 1 11 1 0 10 0 1 10 0 0 1

x1

x2

x3

x4

≥

10101011

= δ(ψ)T .

73

Para calcular os pontos extremos da regiao definida por estas restricoes, se existirem,

usamos um metodo analogo ao sugerido na Secao B.3.1. Ou seja, procuramos as solucoes

unicas de todos os sistemas formados por quatro equacoes dentre as equacoes do sistema

original ATx = δ(ψ)T e testamos as solucoes encontradas de acordo com as restricoes

originais ATx ≥ δ(ψ)T .

No nosso exemplo, devem ser analisados 70 sistemas7 e, feito isso computacionalmente,

descobrimos que a regiao possui pontos extremos e estes sao dados pelas colunas da

seguinte matriz:

X =

0 −1 0−1 0 0

1 1 01 1 1

,em que cada coluna i (i = 1, 2, 3) e um vetor xi. Assim, como os valores de probabilidade

a, b, c ∈ R atribuıdos as sentencas A, B e C sao coerentes, pois tratamos de sentencas

atomicas (Teorema 3.4.2), temos que

Mψ(a, b, c) = mini=1,2,3

[a b c 1

]xi = minc− b+ 1, c− a+ 1, 1.

Analogamente ao desenvolvimento acima podemos calcular

mψ(a, b, c) = 1−M¬ψ(a, b, c) = 1−min1− c, a+ b = maxc, 1− a− b.

Para o segundo exemplo da Secao 3.2, em que ψ = (A ∧ B) ∨ (A ∧ C) ∨ (B ∧ C), os

calculos nos dao:

P (ψ) ≥ max

a2 + a3 − 1, a1 + a3 − 1,

1

2(a1 + a2 + a3)− 1

2, a1 + a2 − 1, 0

e

P (ψ) ≤ min

1, b1 + b2,

1

2(b1 + b2 + b3), b1 + b3, b2 + b3

.

Quando P (A) = P (B) = P (C) = 0, 9, como no exemplo introdutorio da Secao 3.1, temos

P (ψ) ≥ max0, 8; 0, 85; 0 = 0, 85,

e, portanto,

UP (ψ) ≤ 0, 15,

uma majoracao da incerteza menor do que aquela que tınhamos ate entao, de 0, 2, e

exatamente a metade da majoracao dada pelo Teorema de Suppes nesse caso, de 0, 3. Para

7Assim como ha metodos mais eficientes para resolver o PSAT, como observamos no final da secaoanterior, tambem ha metodos mais eficientes para resolver este problema, como comentamos no ApendiceB. Porem, desde que nossa preocupacao nao e a eficiencia computacional, optamos por descrever estemetodo, dada sua simplicidade.

74

um criterio rigoroso de aceitacao racional com, por exemplo, ε = 0, 15, seria importante

saber este valor da majoracao otima.

No ultimo exemplo da Secao 3.2, para ψ = B → A, temos

1− a ≤ P (B → A) ≤ 1,

em que a ∈ R e o valor de probabilidade atribuıdo a A → B, coerente pois e a unica

atribuicao assumida.

Para finalizar a secao, vejamos algumas propriedades das valoracoes probabilısticas

que atingem os valores majorante e minorante. Primeiro, notamos que estas valoracoes

nao sao necessariamente determinadas por uma unica distribuicao de probabilidade, ou

seja, estas valoracoes nao sao unicas. No caso do exemplo anterior em que, para o valor

P (A→ B) = 0, 3,

a funcao MB→A(0, 3) nos garante que existe uma valoracao probabilıstica PM , de forma

que

PM(B → A) = 1.

No entanto, apresentamos abaixo duas distribuicoes de probabilidade PM1 e PM2 distintas

que induzem uma valoracao PM restrita a A→ B e B → A:

• PM1(A ∧B) = 0, 1;

• PM1(¬A ∧B) = 0;

• PM1(A ∧ ¬B) = 0, 7;

• PM1(¬A ∧ ¬B) = 0, 2;

• PM2(A ∧B) = 0, 2;

• PM2(¬A ∧B) = 0;

• PM2(A ∧ ¬B) = 0, 7;

• PM2(¬A ∧ ¬B) = 0, 1.

Outra propriedade interessante, destacada por G. De Bona em (DB11) e consequencia

do conhecido Teorema de Caratheodory, e a seguinte8: se o problema de calcular Mψ

e mψ esta bem colocado, com associacoes coerentes de valores de probabilidades a m

sentencas, existem distribuicoes de probabilidade que induzem valoracoes majorantes e

minorantes com, no maximo, m + 1 valores diferentes de zero. No exemplo anterior, a

seguinte distribuicao verifica esta propriedade:

• PM3(A ∧B) = 0, 3;

• PM3(¬A ∧B) = 0;

• PM3(A ∧ ¬B) = 0, 7;

• PM3(¬A ∧ ¬B) = 0.

8O Teorema de Caratheodory, enunciado e demonstrado em (Hur10), esta intimamente relacionadocom o processo de otimizacao linear, como tambem e evidenciado nesta referencia.

75

3.6 Consequencia probabilıstica de Hailperin

Ate aqui, as relacoes de consequencia probabilıstica definidas no Capıtulo 2, como

vimos, sao equivalentes a relacao de consequencia logica classica. Isto porque estivemos

preocupados em estudar como as incertezas se propagam em inferencias. Na primeira

relacao definida, levamos em consideracao a preservacao dos valores de probabilidade 1,

que mostrou se comportar da mesma forma como a verdade se preserva na relacao de

consequencia logica. Ja na relacao de Adams, nos inspiramos no calculo da estimativa

da incerteza da conclusao de uma inferencia, dadas as incertezas das premissas destas

inferencias.

Contudo, com o metodo de estimativa de probabilidades exposto neste capıtulo, que,

apesar das maiores dificuldades tecnicas, generaliza os resultados que tınhamos, vamos

estudar outro tipo de consequencia probabilıstica. Esta nova relacao foi proposta por

Hailperin em (Hai84), (Hai96) e (Hai10).

Para introduzir a nova consequencia probabilıstica como uma generalizacao da con-

sequencia classica, lembramos que esta pode ser definida a partir das valoracoes classicas.

Assim, uma sentenca ψ ∈ L e uma consequencia logica das sentencas ϕ1, . . . , ϕn ∈ L se,

para toda valoracao v em que v(ϕ1) = · · · = v(ϕn) = 1, tenhamos v(ψ) = 1. Podemos

generalizar a consequencia logica classica afrouxando as exigencias sobre os valores de v

do seguinte modo: ψ e uma consequencia logica de ϕ1, . . . , ϕn se, para toda valoracao v

em que v(ϕ1) = v1, . . . , v(ϕn) = vn, tenhamos v(ψ) = v0 (em que v0, v1, . . . , vn ∈ 0, 1).Denotamos esta relacao por

V (ϕ1) = v1, . . . , V (ϕn) = vn |= V (ψ) = v0.

Podemos generalizar ainda a consequencia logica tomando α1, . . . , αn, β ∈ ℘(0, 1) \∅ e dizendo que ψ e consequencia logica de ϕ1, . . . , ϕn se, para toda valoracao v em que

v(ϕ1) ∈ α1, . . . , v(ϕn) ∈ αn, tenhamos v(ψ) ∈ β. Esta relacao e denotada por

V (ϕ1) ∈ α1, . . . , V (ϕn) ∈ αn |= V (ψ) ∈ β.

Veja que esta relacao de consequencia logica nao e definida sobre as sentencas de L, mas

sobre pares que envolvem uma sentenca de L e um conjunto, elemento de ℘(0, 1) \ ∅.Tomando ϕ1 = A → C, ϕ2 = B ∨ C e ψ = (A → B) ∧ (A ∨ B), alguns exemplos desta

relacao de consequencia logica sao:

• V (ϕ1) = 1, V (ϕ2) = 1 |= V (ψ) ∈ 0, 1,

• V (ϕ1) = 0, V (ϕ2) = 1 |= V (ψ) = 1,

76

• V (ϕ1) ∈ 0, 1, V (ϕ2) = 0 |= V (ψ) = 0.

(Note que quando o conjunto de valores e um conjunto unitario, como 1, denotamos,

por exemplo, V (ϕ1) = 1 ao inves de V (ϕ1) ∈ 1.)Hailperin observou (Hai84) que esta forma generalizada de consequencia logica pa-

rece nao ser de nenhum interesse para a logica classica bivalorada. Porem, ela serve de

prototipo para uma nova consequencia logica probabilıstica que prometemos definir nesta

secao.

Definicao 3.6.1. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L e os conjuntos α1, . . . , αn, β ⊂[0, 1]. A relacao de consequencia probabilıstica de Hailperin, denotada por

p(ϕ1) ∈ α1, . . . , p(ϕn) ∈ αn |=H p(ψ) ∈ β,

e definida da seguinte maneira: para toda valoracao probabilıstica P , tal que P (ϕ1) ∈α1, . . . , P (ϕn) ∈ αn, temos que P (ψ) ∈ β.

Podemos caracterizar alguns casos desta relacao de consequencia a partir das identi-

dades da Teoria de Probabilidades. Por exemplo, como para as sentencas ϕ, ψ ∈ L e para

qualquer valoracao probabilıstica P temos que

P (ϕ ∨ ψ) = P (ϕ) + P (ψ)− P (ϕ ∨ ψ),

segue que

p(ϕ) = a, p(ψ) = b, p(ϕ ∧ ψ) = c |=H p(ϕ ∨ ψ) = a+ b− c.

E claro que para quaisquer sentencas ϕ1, . . . , ϕn, ψ ∈ L e conjuntos α1, . . . , αn ⊂ [0, 1]

temos que

p(ϕ1) ∈ α1, . . . , p(ϕn) ∈ αn |= p(ψ) ∈ [0, 1].

Os casos de maior interesse da relacao de consequencia sao aqueles em que o conjunto

β associado a ψ e o menor possıvel, seja para tomarmos uma decisao mais confiavel de

acordo com a estimativa da probabilidade ou, ate, para garantir a aceitacao racional de

ψ com o criterio exposto na Secao 3.1.

Nos casos em que os conjuntos α1, . . . , αn sao unitarios, o metodo de estimar probabi-

lidades apresentado neste capıtulo resolve o problema de determinar o menor intervalo β

e caracteriza completamente esta classe da relacao de consequencia logica de Hailperin9.

Com o metodo de Hailperin, a semantica probabilıstica responde, para os casos de

conjuntos αi unitarios, a Questao Fundamental da Logica Probabilıstica10 (HRWW11),

9Nos casos em que α1, . . . , αn sao intervalos, o metodo apresentado pode ser facilmente adaptado paratambem determinar o menor intervalo β, como pode ser visto em (Hai65).

10Traducao livre de Fundamental Question of Probabilistic Logic, em (HRWW11, 3).

77

que e justamente encontrar quais conjuntos β podem ser associados a ψ dados ϕ1, . . . , ϕn

e α1, . . . , αn.

O primeiro exemplo de calculo utilizando o metodo deste capıtulo introduz a seguinte

consequencia de Hailperin:

p(A) = a, p(B) = b, p(C) = c

|=H p(A ∨B → C) ∈ [maxc, 1− a− b,minc− b+ 1, c− a+ 1, 1].

Alem deste, listamos a seguir outros exemplos da consequencia de Hailperin. Os dois

primeiros podemos entender como versoes probabilısticas das regras de inferencia e o

ultimo trata, de alguma forma, de uma conhecida inferencia falaciosa.

• p(A) = a, p(A→ B) = b |=H p(B) ∈ [a+ b− 1, b],

com a condicao de consistencia a + b ≥ 1, e uma versao probabilıstica da regra de

Modus Ponens ;

• p(A→ B) = a, p(B → C) = b |=H p(A→ C) ∈ [a+ b− 1, 1],

com a condicao de consistencia a + b ≥ 1, e uma versao probabilıstica da regra do

Silogismo Hipotetico;

• p(A→ B) = a |=H p(B → A) ∈ [1− a, 1]

e a falacia da inversao do condicional.

As condicoes de consistencia sobre as probabilidades das premissas garantem que existe

uma valoracao probabilıstica que valora as premissas desta forma. O problema de conhecer

as condicoes de consistencia se resume ao problema de garantir que nao seja vazia a

regiao delimitada pelas restricoes do problema de otimizacao linear associado ao calculo

da estimativa de probabilidades em questao. Ou seja, ao PSAT.

A relacao de consequencia probabilıstica de Hailperin aponta para uma nova vertente

da racionalidade, nao necessariamente coincidente com relacoes de consequencia proba-

bilıstica como a de Adams ou a relacao de consequencia tradicional apresentada na Secao

2.4. Contudo, uma comparacao entre estas relacoes de consequencia probabilıstica e uma

questao complicada, ainda nao resolvida na literatura.

Capıtulo 4

Probabilidades em LogicasNao-Classicas

Ate agora trabalhamos com semanticas probabilısticas para a logica proposicional

classica. Neste capıtulo vamos introduzir algumas outras maneiras de considerar proba-

bilidades em sistemas logicos nao-classicos.

Dentre as varias possibilidades de se aventurar nesta direcao, mostraremos alguns sis-

temas de logica modal em que a ideia de probabilidade e capturada atraves de operadores

modais e, tambem, apresentaremos semanticas probabilısticas para outros sistemas: de

logica multivalorada e de logica paraconsistente.

4.1 O provavel enquanto modalidade

Uma maneira alternativa de se considerar probabilidades em um sistema logico e

atraves de operadores modais de probabilidade. Na primeira abordagem que mostraremos

introduzimos o conceito de provavel na linguagem-objeto estendendo o alfabeto de L com

o operador unario P .

Em (Ham59), C. L. Hamblin estende L ainda com outros operadores para averiguar

as relacoes entre sentencas do tipo Pϕ, em que ϕ e uma sentenca nao-modal, e sentencas

do tipo 2ϕ e Vϕ. Aqui, 2 e o operador de necessidade e V e um operador epistemico que,

em Vϕ, e interpretado por “sabe-se que ϕ e verdadeiro”. A linguagem para o sistema

de C. L. Hamblin estende L com os operadores P , 2 e V sem admitir iteracao destes

operadores nas sentencas.

Dentre as interpretacoes propostas para Pϕ, uma delas faz uso da teoria de probabi-

lidades: a sentenca “ϕ e provavel”, formalizada por Pϕ, significa que a probabilidade de

ϕ e maior ou igual a x, para 12< x ≤ 1. Para levar a cabo sua investigacao, a logica de

C. L. Hamblin e dada pelo seguinte sistema axiomatico1, com a regra de Modus Ponens

1No artigo original, C. L. Hamblin introduz os axiomas em notacao polonesa. Nos traduzimos para a

78

79

(MP):

i. Um sistema axiomatico para LPC, com suas regras usuais e com a excecao de que

a substituicao nao pode criar iteracao de modalidades;

ii. Se ϕ e um teorema nao-modal, 2ϕ e um teorema;

1. 2ϕ→ ϕ;

2. 2(ϕ→ ψ)→ (2ϕ→ 2ψ);

3. 2ϕ→ Vp;

4. Vϕ→ ϕ;

5. V(ϕ→ ψ)→ (Vϕ→ Vψ);

6. Vϕ→ Pϕ;

7. P¬ϕ→ ¬Pϕ;

8. V(ϕ→ ψ)→ (Pϕ→ Pψ).

C. L. Hamblin chama as probabilidades deste sistema de epistemicas e diz que para um

sistema de probabilidades aleticas os axiomas (6) e (8) devem ser substituıdos por:

6’. 2ϕ→ Pϕ;

8’. 2(ϕ→ ψ)→ (Pϕ→ Pψ).

Embora as relacoes do operador P com os demais operadores modais sejam interessan-

tes objetos de estudo, por si so este operador possui propriedades interessantes, como, por

exemplo, o fato das seguintes sentencas nao serem teoremas do sistema de C. L. Hamblin:

• (Pϕ ∧ Pψ)→ P(ϕ ∧ ψ);

• P(ϕ→ ψ)→ (Pϕ→ Pψ).

J. P. Burgess, mais tarde, propoe em (Bur69) um sistema muito parecido com o de C.

L. Hamblin, mas que admite modalidades iteradas e abandona o operador V . Porem, J. P.

Burgess mostra que, para a interpretacao de C. L. Hamblin, que identifica provavel com

notacao apresentada.

80

probabilidade maior que 12, ambos os sistemas sao incompletos. Mais sobre estes sistemas

pode ser encontrado em (AC05) e (Yal10).

Alem destes sistemas, que representam a incerteza qualitativamente, ja foram propos-

tos sistemas com operadores modais que representam probabilidades quantitativas, como

o de A. Heifetz e P. Mongin (HM98; HM01). Este sistema e construıdo sobre a linguagem

L estendida com os infinitos operadores modais Lα, para α ∈ [0, 1]∩Q, com o pretendido

significado “a probabilidade de ϕ e, pelo menos, α” para a sentenca Lαϕ. As seguintes

abreviacoes podem ser definidas em termos de Lα:

• Mαϕ↔ L1−α¬ϕ, significando “a probabilidade de ϕ e, no maximo, α”;

• Eαϕ↔Mαϕ ∧ Lαϕ, significando “a probabilidade de ϕ e α”;

• Sαϕ↔ ¬Lαϕ, significando “a probabilidade de ϕ e menor que α”;

• Gαϕ↔ ¬Mαϕ, significando “a probabilidade de ϕ e maior que α”.

O sistema apresentado logo mais e motivado por trabalhos em logica epistemica e

fundamentos da teoria da decisao e da teoria dos jogos, por isso, A. Heifetz e P. Mongin

consideram a interpretacao subjetiva das probabilidades. Note, tambem, que estamos

usando funcoes de probabilidade sobre uma σ-algebra de conjuntos, logo, estamos falando

das funcoes da Definicao 1.1.1 com o axioma K3’ (Capıtulo 1).

A. Heifetz e P. Mongin visam axiomatizar estruturas probabilısticas da forma m =

〈Ω,A, P, v〉 em que Ω e um conjunto de mundos possıveis, A e uma σ-algebra de sub-

conjuntos de Ω, P e uma funcao que associa cada mundo possıvel de Ω a uma funcao de

probabilidade sobre A e v e uma valoracao que associa, a cada par 〈ω, ϕ〉 de um mundo

possıvel ω ∈ Ω e de uma sentenca atomica ϕ ∈ L, um valor de verdade 0 ou 1. Estas

estruturas podem ser vistas como refinamentos das estruturas da tradicional semantica

de Kripke para a logica modal.

A valoracao v de uma estrutura m obedece as mesmas regras que uma valoracao

classica para L. Assim, por exemplo, para sentencas ϕ, ψ ∈ L e para um mundo ω ∈ Ω,

temos que v(ω, ϕ ∧ ψ) = 1, se v(ω, ϕ) = 1 e v(ω, ψ) = 1. Este fato e denotado por

m,ω |= ϕ ∧ ψ.

Ja uma sentenca do tipo Lαϕ, com ϕ ∈ L, e valida em um mundo ω ∈ Ω de uma

estrutura m se P (ω)([ϕ]) ≥ α, em que

[ϕ] = ω ∈ Ω : m,ω |= ϕ.

81

Este fato e denotado por

m,ω |= Lαϕ.

Como exemplo de estrutura m, imagine um indivıduo que percebe as nuvens e a

mudanca de temperatura ao acordar pela manha mas nao sabe com certeza se ira chover

durante a tarde. A partir das sentencas A: “Chove” e B: “Ha nuvens e variacao da

temperatura”, podemos conceber quatro mundos possıveis com a valoracao v dada por:

• v(ω1, A) = 1 e v(ω1, B) = 1;

• v(ω2, A) = 1 e v(ω2, B) = 0;

• v(ω3, A) = 0 e v(ω3, B) = 1;

• v(ω4, A) = 0 e v(ω4, B) = 0.

De posse da informacao climatica, o indivıduo nao pode distinguir entre os mundos ω1 e

ω3. Independente de qual a real configuracao do mundo, ele da as seguintes probabilidades

subjetivas para ωi, i ∈ 1, 3:

• P (ωi)(ω1) = 0, 7;

• P (ωi)(ω2) = 0;

• P (ωi)(ω3) = 0, 3;

• P (ωi)(ω4) = 0.

Assim, como [A] = ω1, ω2, segue que

P (ωi)(A) = 0, 7 i ∈ 1, 3.

E, portanto,

m,ω1 |= L0,7A;

m,ω3 |= L0,7A.

Se, para todo mundo possıvel ω ∈ Ω de uma estrutura m, temos que m,ω |= ϕ,

escrevemos

m |= ϕ.

E se, para toda estrutura m, m |= ϕ, escrevemos

|= ϕ.

A. Heifetz e P. Mongin partem do seguinte sistema, baseado em R. Aumann2 (Aum99),

para axiomatizar a relacao de consequencia semantica definida acima:

2Robert Aumann foi laureado com o Premio de Ciencias Economicas em Memoria de Alfred Nobel,em 2005.

82

A0. Um sistema axiomatico para LPC ;

A1. L0ϕ;

A2. Lα(ϕ ∨ ¬ϕ);

A3. Lα(ϕ ∧ ψ) ∧ Lβ(ϕ ∧ ¬ψ)→ Lα+βϕ, α + β ≤ 1;

A4. Sα(ϕ ∧ ψ) ∧ Sβ(ϕ ∧ ¬ψ)→ Sα+βϕ, α + β ≤ 1;

A5. Lαϕ→ Sβ¬ϕ, α + β > 1;

A6. Se ` ϕ↔ ψ, entao ` Lαϕ↔ Lαψ.

Porem, este sistema nao e completo em relacao as estruturas probabilısticas. Para

completar o sistema, A. Heifetz e P. Mongin adicionam um axioma extra, um tanto mais

complicado, inspirado por propriedades avancadas das probabilidades. A discussao sobre

o completamento do sistema e encontrada em (HM98).

As relacoes entre modalidade e probabilidade ainda sao bastante incipientes e deixam

em aberto um vasto e promissor campo de investigacao.

4.2 Probabilidades multivaloradas

Esta secao apresenta uma proposta de semantica probabilıstica para um sistema nao-

classico desenvolvida por V. Marra em (Mar10). V. Marra especula que, se por um lado,

e possıvel associar probabilidades a eventos classicos, aqueles que sao formalizados por

sentencas da logica classica, por analogia tambem poderia ser possıvel associar probabi-

lidades a eventos nao classicos, que seriam eventos formalizados por sentencas de uma

logica nao-classica.

Entendendo que o trabalho de um matematico e perceber analogias, as vezes frutıferas

e, as vezes nao, V. Marra propoe o estudo de probabilidades de eventos formalizados pela

logica infinito-valorada de Godel. Exploraremos nos proximos paragrafos este novo ramo

de pesquisa incentivado por V. Marra.

A logica de Godel e definida sobre a extensao da linguagem L com mais dois sımbolos:

>, o verum, e ⊥, o falsum, que, respectivamente, representam uma sentenca sempre

verdadeira e uma sentenca sempre falsa. Chamamos esta extensao da linguagem de L>⊥.

A semantica para a logica de Godel e dada por valoracoes w : L>⊥ → [0, 1], satisfa-

zendo:

• w(>) = 1;

83

• w(⊥) = 0;

• w(ϕ ∧ ψ) = minw(ϕ), w(ψ);

• w(ϕ ∨ ψ) = maxw(ϕ), w(ψ);

• w(ϕ→ ψ) = 1, se w(ϕ) ≤ w(ψ) e w(ϕ→ ψ) = w(ψ), caso contrario;

• w(¬ϕ) = 1, se w(ϕ) = 0 e w(¬ϕ) = 0, se w(ϕ) > 0.

A consequencia semantica para esta logica e definida precisamente como no caso

classico: para ϕ, ψ ∈ L>⊥, temos ϕ `G ψ se, para toda valoracao w, se w(ϕ) = 1,

entao w(ψ) = 1.

Vejamos, agora, a discussao que V. Marra faz sobre alguns tipos de eventos forma-

lizados por esta logica, eventos godelianos, sobre os quais e proposta a associacao de

probabilidades.

Ao evento dado pela sentenca em linguagem natural “Chove” e simples atribuir um

valor de verdade: ha uma medida da quantidade de chuva chamada taxa de precipitacao,

dada em milımetros por dia - mmdia

- de forma que a sentenca “Chove” sera falsa quando

esta medida for de 0mmdia

e verdadeira quando a precipitacao for diferente disso.

Ja a sentenca, tambem em linguagem natural, “Chove muito” e mais difıcil precisar

quando e verdadeira. Nem ha um consenso sobre isso, mas podemos concordar que ela

sera verdadeira quando a medida de precipitacao for, ao menos, de 300mmdia

e sera falsa

somente quando a precipitacao for de 0mmdia

.

Alem disso, se a taxa de precipitacao e maior que 0mmdia

e menor que 300mmdia

, podemos

entender que a sentenca “Chove muito” nao sera verdadeira, mas tera uma gradacao de

verdade, um valor de verdade no intervalo aberto (0, 1).

V. Marra alega que a logica de Godel modela os seguintes eventos godelianos:

• A: “Chove muito”;

• ¬A: “Nao chove”;

• ¬¬A: “Chove”.

Dao suporte a esta alegacao as sentencas verdadeiras:

• `G ¬¬A ∨ ¬A;

• `G ¬(¬¬A ∧ ¬A).

84

Alem disso, se chove muito, certamente e verdade que chove e temos

`G A→ ¬¬A.

Por outro lado, e possıvel que esteja chovendo, sem que esteja chovendo muito. E, tambem,

temos

0G ¬¬A→ A.

Observa-se, tambem, que nao e necessario que seja o caso de chover muito ou, entao, de

nao chover. E, de fato, diferente da logica classica,

0G A ∨ ¬A.

Assim, V. Marra mostra que existe uma maneira de precisar o significado de “Chove”,

“Nao chove” e “Chove muito” com a taxa de precipitacao de forma a obedecer as leis da

logica de Godel.

Uma primeira tentativa de associar probabilidades as sentencas godelianas A, ¬A e

¬¬A e feita obedecendo os axiomas de Kolmogorov para o caso classico, da Definicao

2.2.1. Determinamos, entao:

• P (A) = q;

• P (¬A) = p1;

• P (¬¬A) = p2.

Esta associacao e valida se, e somente se:

• q, p1, p2 ∈ [0, 1];

• q ≤ p2;

• p1 + p2 = 1.

Porem, V. Marra observa que, se fizermos p′2 = p2 − q, teremos que q, p1, p′2 ∈ [0, 1] e

q + p1 + p′2 = 1, ou seja, uma distribuicao de probabilidade para tres sentencas classicas:

• P (A0) = q;

• P (A1) = p1;

• P (A2) = p′2;

85

que podem formalizar os eventos classicos:

• A0: “Chove muito”;

• A1: “Nao chove”;

• A2: “Chove, mas nao muito”.

Dessa forma, o evento “Chove” seria representado por A0 ∨ A2 e, assim, P (A0 ∨ A2) =

P (A0) + P (A2) = q + p′2 = p2. A conclusao inevitavel e que as probabilidades multivalo-

radas nao seriam de interesse, pois podemos voltar ao caso classico. Todavia, V. Marra

lembra que um evento do tipo “Chove, mas nao muito” nao pode ser representado na

logica de Godel. Os eventos godelianos A, ¬A e ¬¬A simplesmente nao tem a capacidade

linguıstica de expressar isso e, portanto, parece que a primeira tentativa falhou.

A nova proposta de V. Marra parte do fato de que segundo o criterio adotado, sempre

que chove, “Chove muito” (A) e uma sentenca verdadeira para algum grau de verdade.

Logo, se temos a associacao P (A) = 0, devemos ter tambem P (¬¬A) = 0 e o novo criterio

para que q, p1 e p2 sejam probabilidades e dador por:

• q, p1, p2 ∈ [0, 1];

• q ≤ p2;

• p1 + p2 = 1;

• Se p = 0, entao p2 = 0.

V. Marra considera que a resposta a respeito da questao desta axiomatizacao ser

apropriada para as sentencas da logica de Godel ainda nao foi dada, e abre caminho para

uma outra conexao entre probabilidade e valores de verdade.

4.3 Probabilidades paraconsistentes

Assim como no caso da secao anterior, a semantica probabilıstica para um sistema

de logica paraconsistente, proposta por J. Bueno-Soler e W. Carnielli em (BSC15), e

de desenvolvimento recente. Veremos como definir probabilidades para o sistema Ci,

uma Logica da Inconsistencia Formal (LIF)3 que, por sua vez, e uma classe de logicas

paraconsistentes.

3As Logicas da Inconsistencia Formal sao largamente conhecida pelo nome em ingles Logics of FormalInconsistency, abreviado por LFI.

86

Uma logica paraconsistente consiste de um sistema formal que nao e trivializado em

presenca de contradicoes. Em LPC, por exemplo, e valida a inferencia Pseudo Scotus, em

que, para sentencas ϕ, ψ ∈ L quaisquer,

ϕ,¬ϕ ` ψ.

Ja em um sistema paraconsistente esta inferencia nao e valida. N. C. A. da Costa foi um

dos pioneiros no estudo dos sistemas paraconsistentes. Em seu Sistemas Formais Incon-

sistentes (dC93a), N. C. A. da Costa define uma hierarquia de logicas paraconsistentes,

os chamados sistemas Cn, 1 ≤ n < ω. Mais tarde, com a organizacao de alguns sistemas

paraconsistentes na classe das LIFs, pode ser visto que a hierarquia de N. C. A. da Costa

e formada por sistemas desta classe. Mas, a proposta apresentada a seguir nao e base-

ada nos sistemas de N. C. A. da Costa e, sim, no sistema Ci, introduzido nos proximos

paragrafos.

As LIFs sao sistemas de logica propostos inicialmente por W. Carnielli que formalizam

na dimensao da linguagem-objeto a nocao de consistencia4. Assim, adicionando a L o

operador unario de consistencia , a nova linguagem chama-se L e uma formula do tipo

ϕ e lida por “ϕ e consistente”.

Em uma LIF, a inferencia Pseudo Scotus nao e valida em geral, mas uma forma mais

fraca passa a ser valida para sentencas consistentes, de modo que a logica classica pode ser

recuperada na presenca da consistencia. Esta forma mais fraca de Pseudo Scotus, tambem

conhecida pelo nome de Princıpio da Explosao, e chamada de Princıpio da Explosao Gentil

e, para sentencas ϕ, ψ ∈ L quaisquer, e dada por

ϕ, ϕ,¬ϕ ` ψ.

Portanto, uma LIF pode ser definida como um sistema paraconsistente gentilmente

explosivo com linguagem L5. Ou seja, um sistema logico em que nao vale a inferencia

Pseudo Scotus, mas e valido o Princıpio da Explosao Gentil. Formalmente, existem sen-

tencas ϕ, ψ ∈ L tais que

ϕ,¬ϕ 0 ψ,

e, para quaisquer sentencas ϕ, ψ ∈ L,

ϕ, ϕ,¬ϕ ` ψ.4Otimas referencias para estes sistemas sao (CCM03) e (Mar05).5As LIFs podem ser definidas de uma maneira mais geral sobre a linguagem L de forma a, para uma

sentenca ϕ ∈ L, ϕ denotar uma abreviacao para um conjunto de formulas. Caımos na definicao dadano texto no caso deste conjunto ser unitario, caso em que o sımbolo possa ser considerado como umoperador da linguagem, que e o caso do nosso sistema de interesse Ci.

87

O sistema Ci e o sistema de linguagem L axiomatizado por um calculo de Hilbert

com a regra Modus Ponens dado pelos seguintes esquemas:

Ax1. ϕ→ (ψ → ϕ);

Ax2. (ϕ→ ψ)→ ((ϕ→ (ψ → γ))→ (ϕ→ γ));

Ax3. ϕ→ (ψ → (ϕ ∧ ψ));

Ax4. (ϕ ∧ ψ)→ ϕ;

Ax5. (ϕ ∧ ψ)→ ψ;

Ax6. ϕ→ (ϕ ∨ ψ);

Ax7. ψ → (ϕ ∨ ψ);

Ax8. (ϕ→ γ)→ ((ψ → γ)→ ((ϕ ∨ ψ)→ γ));

Ax9. ϕ ∨ (ϕ→ ψ);

Ax10. ϕ ∨ ¬ϕ;

Ax11. ¬¬ϕ→ ϕ;

bc1. ϕ→ (ϕ→ (¬ϕ→ ψ));

ci. ¬ ϕ→ (ϕ ∧ ¬ϕ);

ccn. ¬n ϕ, para n ≥ 06.

E interessante que em uma LIF, como em Ci, por exemplo, nao e necessario que o

operador seja a abreviacao de uma sentenca, podendo ser tomado como primitivo. Isto

possibilita a investigacao do conceito de consistencia pois, em alguns sistemas, este nao e

um conceito equivalente ao de nao-contradicao7 (CCM03).

Antes de prosseguir, definimos ainda uma partıcula bottom em Ci como uma sentenca

δ ∈ L tal que, para qualquer sentenca ψ,

δ `Ci ψ.

Considerando suficiente esta pequena introducao sobre LIFs e sobre Ci, vamos apre-

sentar a semantica probabilıstica para Ci, conforme J. Bueno-Soler e W. Carnielli propoem

em (BSC15).

6Definimos, para ϕ ∈ L, ¬0ϕ = ϕ e ¬n+1ϕ = ¬¬nϕ, para n ≥ 1.7O sistema C1 de N. C. A. da Costa, diferente de Ci, e um caso em que consistencia e equivalente a

nao-contradicao. La, ϕ pode ser definido como uma abreviacao de ¬(ϕ ∧ ¬ϕ).

88

Definicao 4.3.1. Sejam as sentencas ϕ, ψ ∈ L. Uma funcao de probabilidade para Ci e

uma funcao P : L → R que satisfaz os axiomas:

• 0 ≤ P (ϕ) ≤ 1;

• Se `Ci ϕ, entao P (ϕ) = 1;

• Se ϕ e uma partıcula bottom, entao P (ϕ) = 0;

• Se ψ `Ci ϕ, entao P (ψ) ≤ P (ϕ);

• P (ϕ ∨ ψ) + P (ϕ ∧ ψ) = P (ϕ) + P (ψ).

A seguir, veremos alguns primeiros resultados sobre esta semantica probabilıstica para

Ci que, por serem semelhantes ao que temos para a semantica probabilıstica para LPC,

corroboram com a justificativa para esta investigacao. Mas, antes, vejamos mais algumas

definicoes. Dizemos que duas sentencas ϕ, ψ ∈ L sao logicamente incompatıveis se, para

qualquer sentenca γ ∈ L,ϕ, ψ `Ci γ.

Podemos, tambem, definir uma negacao classica ∼ em Ci a partir da abreviacao, para

ϕ ∈ L, ∼ ϕ = ϕ → δ, em que δ ∈ L e uma partıcula bottom de Ci. Agora, podemos

enunciar os seguintes resultados.

Teorema 4.3.1. Sejam ϕ, ψ ∈ L e P uma funcao de probabilidade para Ci. Entao:

1. P (ϕ ∧ ϕ ∧ ¬ϕ) = 0;

2. Se ϕ e ψ sao logicamente incompatıveis, P (ϕ ∨ ψ) = P (ϕ) + P (ψ);

3. P (ϕ) = 2− [P (ϕ) + P (¬ϕ)];

4. P (ϕ ∧ ¬ϕ) = P (ϕ) + P (¬ϕ)− 1;

5. P (∼ ϕ) = 1− P (ϕ);

6. P (¬ ϕ) = 1− P (ϕ).

A seguir, e definida uma relacao de consequencia logica probabilıstica para Ci e enun-

ciada a correcao e completude deste sistema em relacao a esta relacao.


probabilıstica, denotada por

ϕ1, . . . , ϕn |=P ψ,

89

e definida da seguinte maneira: para toda funcao P de probabilidades para Ci, tal que

P (ϕ1) = · · · = P (ϕn) = 1, temos que P (ψ) = 1.

Teorema 4.3.2 (Correcao e Completude). Sejam Γ ⊂ L e ψ ∈ L. Entao,

Γ `Ci ψ se, e somente se, Γ |=P ψ.

J. Bueno-Soler e W. Carnielli especulam, ainda, que talvez as aplicacoes mais interes-

santes das probabilidades paraconsistentes se dao no campo da epistemologia Bayesiana

por conta de uma versao paraconsistente da regra de condicionalizacao de Bayes, ja suge-

rida em (Car09). Define-se a probabilidade condicional paraconsistente da mesma forma

que a classica, para ϕ, ψ ∈ L:

P (ϕ|ψ) =P (ϕ ∧ ψ)

P (ψ).

Assim, a regra paraconsistente de condicionalizacao de Bayes e:

P (ϕ|ψ) =P (ψ|ϕ)P (ϕ)

P (ψ|ϕ)P (ϕ) + P (ψ|¬ϕ)P (¬ϕ)− P (ψ|ϕ ∧ ¬ϕ)P (ϕ ∧ ¬ϕ).

Como exemplo de aplicacao desta regra, J. Bueno-Soler e W. Carnielli vislumbram o

seguinte cenario de um teste de doping para uma droga ilegal com informacoes inconsis-

tentes:

• O teste resulta positivo em 98% dos casos em que o indivıduo faz uso frequente da

droga;

• O teste resulta negativo em 90% dos casos em que o indivıduo nunca usou ou nao

faz uso frequente da droga;

• E sabido que 10% de todos os atletas fazem uso frequente da droga;

• E sabido que 95% de todos os atletas nunca usaram ou nao fazem uso frequente da

droga;

• E sabido que, independente do atleta testado, o teste resulta positivo com probabi-

lidade de 0, 12.

Convencionamos as seguintes abreviacoes para os eventos:

• D: “O teste resultou positivo para um indivıduo”;

• C: “O teste resultou negativo para um indivıduo”;

90

• A: “O atleta testado faz uso frequente da droga”;

• ¬A: “O atleta testado nunca usou ou nao faz uso frequente da droga”.

Dessa forma, temos os seguintes valores de probabilidade:

• P (D|A) = 0, 98;

• P (C|¬A) = 0, 9;

• P (D) = 0, 12;

• P (A) = 0, 1;

• P (¬A) = 0, 95.

Note que as informacoes inconsistentes sao sobre os eventos A e ¬A. Agora, supondo

que um atleta tenha sido testado com resultado positivo, a questao que se coloca e sobre

qual a probabilidade deste atleta realmente fazer uso da droga, ou seja, o valor de P (A|D).

Com a regra paraconsistente de condicionalizacao, este valor e P (A|D) = 0, 31, muito

menor do que o valor de P (A|D) = 0, 82 dado pela regra classica de condicionalizacao de

Bayes

P (ϕ|ψ) =P (ψ|ϕ)P (ϕ)

P (ψ).

J. Bueno-Soler e W. Carnielli fazem outras comparacoes entre as regras de condi-

cionalizacao classica e paraconsistente e entendem que os exemplos sugerem uma regra

paraconsistente mais sensıvel que a regra classica.

Sobre esta proposta de probabilidades paraconsistentes, devemos ressaltar ainda al-

guns topicos. J. Bueno-Soler e W. Carnielli, no espırito de sua discussao sobre as tradicoes

de associar valores de probabilidades a conjuntos ou sentencas, como ja mencionamos nos

Capıtulos 1 e 2, propoem uma estrutura chamada espaco paraconsistente de probabilida-

des, um tanto mais complexa que a estrutura de Kolmogorov e que a generaliza. Esta

abordagem e baseada na algebra paraconsistente de conjuntos investigada por W. Carnielli

e L. P. de Alcantara em (CdA84), de forma a oferecer uma conexao entre probabilidades

paraconsistentes sobre sentencas e sobre conjuntos.

J. Bueno-Soler e W. Carnielli fazem mencao a possibilidade de uma abordagem para-

consistente modal para probabilidades, semelhante ao que vimos na primeira secao deste

capıtulo, nas linhas de A. Heifetz e P. Mongin (HM98), dado que as modalidades paracon-

sistentes ja foram estudadas, por exemplo, em (BS10) e (BSC14). E tambem mencionada

a possibilidade de uma estudo das relacoes entre as probabilidades paraconsistentes a uma

Teoria da Possibilidade Paraconsistente. A Teoria da Possibilidade e uma outra aborda-

gem formal da incerteza em cenarios de informacao incompleta (DP11) que, segundo J.

Bueno-Soler e W. Carnielli, pode ser naturalmente fundamentada sobre LIFs.

91

Por fim, mas nao menos interessante, J. Bueno-Soler e W. Carnielli lancam a possibi-

lidade de se interpretar probabilidades paraconsistentes como probabilidades subjetivas,

como as probabilidades associadas a eventos por um agente racional. Desta forma, por

exemplo, nao e necessario que uma contradicao seja um evento impossıvel aos olhos de

um agente racional, embora contradicoes consistentes tenham esta necessidade.

As probabilidades paraconsistentes se mostram como um novo e efervescente campo

de pesquisa com varias direcoes possıveis de desenvolvimento, alem do grande poten-

cial de modelar questoes filosoficas como a epistemologia Bayesiana e as probabilidades

subjetivas.

Consideracoes Finais

A principal tese que subjaz a todo este trabalho e a de que as incertezas sobre as in-

formacoes utilizadas nos raciocınios podem ser representadas por probabilidades, embora

reconhecamos que existam outras abordagens tao plausıveis quanto esta. Portanto, reca-

pitulamos de forma introdutoria as mais tradicionais nocoes do conceito de probabilidade

- classica, frequentista, subjetiva, logica e propensista - e, assim, evidenciamos ao menos

alguns dos pontos de discordancia neste assunto. Dessa forma, longe de ser um tema

concluıdo, a filosofia da probabilidade tem a capacidade de gerar diversas discussoes. As

inumeras referencias citadas no Capıtulo 1 sao pontos para prosseguir o estudo desta area.

A maneira de atrelar probabilidades no entendimento do raciocınio foi mostrada na

definicao de semantica probabilıstica, dada no Capıtulo 2. Associar valores de probabili-

dades a sentencas levanta a questao sobre qual tipo de relacao esta abordagem tem com

o famoso sistema de Kolmogorov, em que probabilidades sao associadas a conjuntos.

Uma forma de determinar esta relacao foi apresentada na Secao 2.3, mostrando que

uma valoracao probabilıstica sobre a linguagem L pode ser vista como um caso particular

de uma medida de probabilidade sobre uma algebra de conjuntos. Outra questao e se, a

partir de uma medida de probabilidade sobre uma algebra de conjuntos podemos capturar

uma valoracao probabilıstica. Hailperin mostra em (Hai96) uma possibilidade de se fazer

isto no caso em que a algebra de conjuntos considerada e definida sobre um conjunto

finito. Porem, ainda falta estabelecer como esta operacao se relaciona com a operacao

da Secao 2.3 e, ainda, como ficam os casos de medidas de probabilidade sobre conjuntos

infinitos.

Do ponto de vista logico, o raciocınio e estudado por meio da definicao de relacoes de

consequencia. Neste trabalho foram definidas tres relacoes de consequencia probabilıstica

a partir da semantica probabilıstica para logica classica. Cada uma delas tem um objetivo

e clarifica algum aspecto do raciocınio sob incerteza, da forma que analisamos. A primeira

relacao de consequencia, da Definicao 2.4.2 e a relacao de Adams, da Definicao 2.6.1, sao

equivalentes a relacao de consequencia logica classica de LPC. Ja a relacao de Hailperin,

da Definicao 3.6.1, mais voltada as aplicacoes, diferente das anteriores, nao relaciona sen-

92

93

tencas de uma linguagem, mas pares compostos por uma sentenca e um conjunto numerico

no intervalo [0, 1]. Entendemos que ainda e preciso estabelecer quais as caracterısticas

que determinam o que estamos chamando de relacao de consequencia probabilıstica.

No aprofundamento do estudo das valoracoes probabilısticas, fizemos uso das teorias

matematicas da algebra linear e da otimizacao linear. As tecnicas utilizadas, alem de

fundamentais para definir algumas instancias da relacao de Hailperin, abrem caminho para

solucao de questoes computacionais relativas as valoracoes probabilısticas, como e o caso

do problema da Satisfatibilidade Probabilıstica. Ha ainda outras questoes computacionais

que podem ser levantadas e estudadas, como a busca de criterios para escolher valoracoes

probabilısticas particulares induzidas por uma distribuicao de probabilidade.

No decorrer do estudo das valoracoes probabilısticas sentimos necessidade de dar jus-

tificativa para algumas questoes sobre as quais nao encontramos suporte na literatura.

Estas questoes foram: garantir a existencia de modelo para a teoria da Definicao 2.2.1,

ou seja, existencia de uma valoracao probabilıstica; garantir que uma distribuicao de

probabilidade para um conjunto finito de sentencas de L pode ser estendida para uma va-

loracao probabilıstica (sobre todo L); garantir que qualquer atribuicao de probabilidades

para um conjunto finito de sentencas atomicas e satisfatıvel. Acreditamos ter justificado

estas questoes de maneira construtiva, uma das contribuicoes deste trabalho embora nao

reivindiquemos pioneirismo, com as demonstracoes para os Teoremas 2.4.1, 3.4.1 e 3.4.2.

Apresentamos, no Capıtulo 4, abordagens que combinam probabilidades e logicas nao-

classicas. De um lado, mostramos as teorias que propoe probabilidades como modalidades

atraves de operadores na linguagem formal, de forma a capturar o conceito tradicional

de probabilidade. De outra lado, avaliamos neste trabalho propostas de semanticas pro-

babilısticas para logicas nao-classicas que podem estender o conceito tradicional ou ate

capturar novos conceitos de probabilidade, como as probabilidades multivaloradas e as

probabilidades paraconsistentes.

Junto com estas propostas a respeito das nocoes de probabilidade nao-classica apare-

cem as questoes filosoficas de identificar a natureza conceitual de tais nocoes, aumentando

o campo da filosofia da probabilidade. Alem disto, podem ser buscadas aplicacoes e se-

rem oferecidas novas perspectivas para outras areas, como probabilidades paraconsistentes

parecem oferecer para a epistemologia Bayesiana.

Por se tratar de novo objeto matematico, os sistemas de probabilidades nao-classicas e

as estruturas representadas por eles tambem abrem campos de investigacao tecnica logica,

matematica e computacional. O objetivo deste trabalho nao e, obviamente, responder a

este tipo de questoes, mas esclarecer sua relevancia e sua razao de ser. Se o interesse

94

levantado por tais questoes for tal que investigacoes posteriores delas se ocupem, teremos

cumprido nosso objetivo nesta dissertacao.

Referencias Bibliograficas

[AC05] H. Arlo Costa. Non-adjunctive inference and classical modalities. Journal of

Philosophical Logic, 34:581–605, 2005.

[Ada98] E. W. Adams. A Primer of Probability Logic. CSLI Publications, Stanford,

1998.

[Aum99] R. J. Aumann. Interactive epistemology. International Journal of Game

Theory, 28:263–314, 1999.

[Aye63] A. J. Ayer. Two notes on probability. The Concept of a Person and other

Essays, paginas 188–208, 1963.

[Boo54] G. Boole. The Laws of Thought. Macmillan, Londres, 1854.

[BS10] J. Bueno-Soler. Two semantical approaches to paraconsistent modalities.

Logica Universalis, 4(1):137–160, 2010.

[BSC14] J. Bueno-Soler e W. Carnielli. Experimenting with consistency. CLE e-Prints,

14(3), 2014.

[BSC15] J. Bueno-Soler e W. Carnielli. May be and may not be: paraconsistent

probabilities from the LFI viewpoint. CLE e-Prints, 15(2), 2015.

[Bur69] J. P. Burgess. Probability logic. The Journal of Symbolic Logic, 34(2):264–

274, 1969.

[Car50] R. Carnap. Logical Foundations of Probability. University of Chicago Press,

Chicago, 1950.

[Car09] W. Carnielli. Uma logica da modalidade economica? Revista Brasileira de

Filosofia, paginas 01–18, 2009.

[CCM03] W. Carnielli, M. E. Coniglio e J. Marcos. Logics of formal inconsistency.

Handbook of Philosophical Logic, paginas 1–93, 2003.

95

96

[CdA84] W. Carnielli e L. P. de Alcantara. Paraconsistent algebras. Studia Logica,

43:79–88, 1984.

[CDC07] C. A. Callioli, H. H. Domingues e R. C. F. Costa. Algebra Linear e Aplicacoes.

Atual, Sao Paulo, 2007.

[CE09] W. Carnielli e R. L. Epstein. Computabilidade, Funcoes Computaveis, Logica

e os Fundamentos da Matematica. Editora Unesp, Sao Paulo, 2009.

[Chu40] A. Church. On the concept of a random sequence. Bulletin of the American

Mathematical Society, 46(2):130–135, 1940.

[DB11] G. De Bona. Satisfazibilidade probabilıstica. Dissertacao de Mestrado, Ins-

tituto de Matematica e Estatıstica, Universidade de Sao Paulo, Sao Paulo,

2011.

[dC93a] N. C. A. da Costa. Logica Indutiva e Probabilidade. Editora da Universidade

de Sao Paulo, Sao Paulo, 1993.

[dC93b] N. C. A. da Costa. Sistemas Formais Inconsistentes. Editora UFPR, Curi-

tiba, 1993.

[DF30a] B. De Finetti. Fondamenti logici del ragionamento probabilistico. Bollettino

della Unione Matematica Italiana, 5:1–3, 1930.

[DF30b] B. De Finetti. Funzione caratteristica di un fenomeno aleatorio. Memorie

della Reale Accademia dei Lincei, 5(IV):86–133, 1930.

[DF30c] B. De Finetti. Problemi determinati e indeterminati nel calcolo della probabi-

lita. Rendiconti della Reale Accademia Nazionale dei Lincei, 9(XII):367–373,

1930.

[DF74] B. De Finetti. Theory of Probability. Wiley, New York, 1974.

[DF89] B. De Finetti. Probabilism. Erkenntnis, 31:169–223, 1989.

[DF93] B. De Finetti. On the subjective meaning of probability. De Finetti, paginas

291–321, 1993.

[DKS14] Lorenz Demey, Barteld Kooi e Joshua Sack. Logic and probability. Em

Edward N. Zalta, editor, The Stanford Encyclopedia of Philosophy. Fall 2014

edicao, 2014.

97

[DM47] A. De Morgan. Formal Logic. Taylor and Walton, Londres, 1847.

[DP11] G. Dubois e H. Prade. Possibility theory and its applications: Where do we

stand? Mathware and Soft Computing, 18(1):18–31, 2011.

[Eag10] A. Eagle. Philosophy of Probability: Contemporary Readings. Routledge,

Londres, 2010.

[Ell44] R. L. Ellis. On the foundations of the theory of probabilities. Transactions

of the Cambridge Philosophical Society, 8:1–6, 1844.

[FDB10] M. Finger e G. De Bona. A refuted conjecture on probabilistic satisfiability.

Lecture Notes in Computer Science, 6404:293–302, 2010.

[FDB11] M. Finger e G. De Bona. Probabilistic satisfiability: Logic-based algorithms

and phase transition. Proceedings of the 22nd International Joint Conference

on Artificial Intelligence, paginas 528–533, 2011.

[FDB15] M. Finger e G. De Bona. Probabilistic satisfiability: algorithms with the

presence and absence of a phase transition. Annals of Mathematics and

Artificial Intelligence, 2015.

[Fol99] G. B. Folland. Real Analysis: Modern Techniques and Their Applications.

Wiley, New York, 1999.

[Gil00] D. Gillies. Philosophical Theories of Probability. Routledge, Londres, 2000.

[Hai65] T. Hailperin. Best possible inequalities for the probability of a logical function

of events. American Mathematical Monthly, 72(4):343–359, 1965.

[Hai84] T. Hailperin. Probability logic. Notre Dame Journal of Formal Logic,

25(3):198–212, 1984.

[Hai96] T. Hailperin. Sentential Probability Logic: Origins, Development, Current

Status, and Technical Applications. Lehigh University Press, Bethlehem,

1996.

[Hai10] T. Hailperin. Logic with a Probability Semantics: Including Solutions to Some

Philosophical Problems. Lehigh University Press, Bethlehem, 2010.

[Haj01] A. Hajek. Probability, logic, and probability logic. The Blackwell Guide to

Philosophical Logic, paginas 362–384, 2001.

98

[Haj03] A. Hajek. What conditional probability could not be. Synthese, 137(3):273–

323, 2003.

[Haj12] Alan Hajek. Interpretations of probability. Em Edward N. Zalta, editor, The

Stanford Encyclopedia of Philosophy. Winter 2012 edicao, 2012.

[Ham59] C. L. Hamblin. The modal “probably”. Mind, 68(270):234–240, 1959.

[HM98] A. Heifetz e P. Mongin. The modal logic of probability. Proceedings of the

7th Conference on Theoretical Aspects of Rationality and Knowledge, paginas

175–185, 1998.

[HM01] A. Heifetz e P. Mongin. Probability logic for type spaces. Games and Eco-

nomic Behavior, 35:31–53, 2001.

[HRWW11] R. Haenni, J.-W. Romeijn, G. Wheeler e J. Williamson. Probabilistic Logics

and Probabilistic Networks. Springer, Dordrecht, 2011.

[Hum88] D. Hume. A Treatise of Human Nature. Clarendon Press, Oxford, 1888.

[Hum85] P. Humphreys. Why propensities cannot be probabilities. Philosophical Re-

view, 94:557–570, 1985.

[Hur10] Glenn H. Hurlbert. Linear Optimization: The Simplex Workbook. Springer,

2010.

[Jef39] H. Jeffreys. Theory of Probability. Oxford University Press, Oxford, 1939.

[Kar64] C. R. Karp. Languages with Expressions of Infinite Length. North-Holland

Publishing Company, Amsterdam, 1964.

[Kem55] J. Kemeny. Fair bets and inductive probabilities. Journal of Symbolic Logic,

20(3):263–273, 1955.

[Key21] J. M. Keynes. A Treatise on Probability. Macmillan, Londres, 1921.

[Kol33] A. N. Kolmogorov. Grundbegriffe der Wahrscheinlichkeitsrechnung. Julius

Springer, Berlin, 1933.

[Kol56] A. N. Kolmogorov. Foundations of the Theory of Probability. Chelsea Pu-

blishing Company, New York, 1956.

99

[Kva98] J. Kvanvig. The epistemic paradoxes. Routledge Encyclopedia of Philosophy,

1998.

[Kyb61] H. E. Kyburg. Probability and the Logic of Rational Belief. Wesleyan Uni-

versity Press, Middletown, 1961.

[Kyb97] H. E. Kyburg. The rule of adjunction and reasonable inference. The Journal

of Philosophy, 94(3):109–125, 1997.

[Lap40] P. S. Laplace. Essai philosophique sur les probabilites. Bachelier, Paris, 1840.

[Lap51] P. S. Laplace. A Philosophical Essay on Probabilities (1814). Translated from

the Sixth French Edition. Dover Publications, New York, 1951.

[Lei77] G. W. Leibniz. Towards a universal characteristic. Leibniz Selections, paginas

17–25, 1677.

[Lew76] D. Lewis. Probabilities of conditionals and conditional probabilities. Philo-

sophical Review, 85(3):297–315, 1976.

[Lyo14] A. Lyon. From Kolmogorov, to Popper, to Renyi: There’s no escaping

Humphreys’ paradox (when generalized). Chance and Temporal Asymme-

try, 2014.

[Mar05] J. Marcos. Logics of Formal Inconsistency. Fundacao Biblioteca Nacional,

Brasil, 2005.

[Mar10] V. Marra. Is there a probability theory of many-valued events? Em H Hosni

e F Montagna, editors, Probability, uncertainty and rationality, Centro di

Ricerca Matematica Ennio De Giorgi Series (No. 7)., volume 10, paginas

141–166. Edizioni della Normale, Pisa, 2010.

[Men64] E. Mendelson. Introduction to Mathematical Logic. Van Nostrand, Princeton,

1964.

[Mil] D. W. Miller. Popper’s contribution to the theory of probability and its

interpretation. The Cambridge Companion to Popper.

[Mil94] D. W. Miller. Critical Rationalism: A Restatement and Defence. Open Court,

1994.

100

[Mil96] D. W. Miller. Propensities and indeterminism. Karl Popper: Philosophy and

Problems, paginas 121–147, 1996.

[Mil04] D. W. Miller. How does probability theory generalize logic?

http://www.warwick.ac.uk/go/dwmiller/chuaqui.pdf/, 2004.

[Nil86] N. Nilsson. Probabilistic logic. Artificial Intelligence, 1(28):71–87, 1986.

[Nil93] N. Nilsson. Probabilistic logic revisited. Artificial Intelligence, (59):39–42,

1993.

[Pop35] K. R. Popper. Logik der Forschung. Julius Springer Verlag, Viena, 1935.

[Pop57] K. R. Popper. The propensity interpretation of the calculus of probability,

and the quantum theory. Observation and Interpretation, Proceedings of

the Ninth Symposium of the Colston Research Society, University of Bristol,

paginas 65–70 e 88–89, 1957.

[Pop59a] K. R. Popper. The Logic of Scientific Discovery. Hutchinson & Co., Londres,

1959.

[Pop59b] K. R. Popper. The propensity interpretation of probability. British Journal

for the Philosophy of Science, 10:25–42, 1959.

[Pop83] K. R. Popper. Realism and the Aim of Science. Hutchinson, 1983.

[Pop90] K. R. Popper. A World of Propensities. Thoemmes, Bristol, 1990.

[Ram31] F. P. Ramsey. Truth and probability. Foundations of Mathematics and other

Essays, paginas 156–198, 1931.

[Rei49] H. Reichenbach. The Theory of Probability. University of California Press,

Berkeyley, 1949.

[Ren55] A. Renyi. On a new axiomatic theory of probability. Acta Mathematica

Academiae Scientiarum Hungarica, 6:285–335, 1955.

[RF10] H. Royden e P. M. Fitzpatrick. Real Analysis. Pearson, 2010.

[Sal66] W. Salmon. The Foundations of Scientific Inference. University of Pittsburgh

Press, Pittsburgh, 1966.

[Sho01] J. R. Shoenfield. Mathematical Logic. Addison-Wesley, Boston, 2001.

101

[Sky10] B. Skyrms. Choice and Chance. Wadsworth, Belmont, 2010.

[Sup66] P. Suppes. Probabilistic inference and the concept of total evidence. Aspects

of Inductive Logic, paginas 49–65, 1966.

[Ven66] J. Venn. The Logic of Chance: An Essay on the Foundations and Province of

the Theory of Probability, with Especial Reference to Its Application to Moral

and Social Science. Macmillan, Londres e Cambridge, 1866.

[VM19] R. Von Mises. Grundlagen der Wahrscheinlichkeitsrechnung. Mathematische

Zeitschrift, 5:52–100, 1919.

[VM57] R. Von Mises. Probability, Statistics and Truth. Macmillan, New York, 1957.

[VM64] R. Von Mises. Mathematical Theory of Probability and Statistics. Academic

Press, New York, 1964.

[Voo99] F. Voorbraak. Probabilistic belief change: Expansion, conditioning and cons-

training. Uncertainty in Artificial Intelligence: Proceedings of the Fifteenth

Conference (UAI-1999), paginas 655–662, 1999.

[Whe07] G. Wheeler. A review of the lottery paradox. Probability and Inference:

Essays in Honour of Henry E. Kyburg, Jr., paginas 1–31, 2007.

[Wil96] T. Williamson. Knowing and asserting. Philosophical Review, 105(4):489–

523, 1996.

[Wil02] J. Williamson. Probability logic. Handbook of the Logic or Argument and

Inference: The Turn Towards the Practical, paginas 397–424, 2002.

[Yal10] S. Yalcin. Probability operators. Philosophy Compass, 5:916–937, 2010.

Apendice A

Formas Normais Disjuntivas

Logo no inıcio do estudo das valoracoes probabilısticas ja percebemos a importancia

tecnica de utilizar as Formas Normais Disjuntivas das sentencas de L. Neste apendice

se encontram os resultados sobre este assunto necessarios para o desenvolvimento desta

dissertacao.

A.1 Definicoes

Definicao A.1.1. Um literal e uma sentenca atomica ou uma negacao de uma sentenca

atomica.

Definicao A.1.2. Uma descricao de estado e uma conjuncao de literais.

Definicao A.1.3. Uma forma normal disjuntiva (FND) e uma disjuncao de descricoes

de estado.

Sao exemplos de FNDs:

• (A ∧B) ∨ (¬A ∧B) ∨ (A ∧ ¬B) ∨ (¬A ∧ ¬B)

• (A ∧ ¬B ∧ ¬C) ∨ (A ∧B ∧ ¬C)

• A ∨ (¬A ∧ C)

Chamamos, neste texto, de descricao de estado de um conjunto (finito) de sentencas

atomicas A1, . . . , An uma descricao de estado da forma ±A1 ∧ · · · ∧ ±An, em que ±Ae o literal A ou o literal ¬A.

A.2 Resultados

Lema A.2.1. As descricoes de estado de um conjunto α = A1, . . . , An sao duas a duas

logicamente incompatıveis.

102

103

Demonstracao. Para uma descricao de estado de α ser validada por uma valoracao v,

todos os seus literais devem ter valor 1 por v (dado que uma descricao de estado e uma

conjuncao de literais). E, para duas descricoes de estado de α se diferirem, deve existir

ao menos uma sentenca Ai ∈ α que se comporta como literal Ai em uma das descricoes

e como literal ¬Ai em outra. Logo, se v(Ai) = 1, devemos ter v(¬Ai) = 0 e vice versa.

Portanto, estas descricoes de estado sao logicamente incompatıveis.

O proximo teorema e um resultado fundamental para o estudo das valoracoes proba-

bilısticas. Em sua demonstracao, encontramos um procedimento para calcular a FND de

uma sentenca qualquer que nao seja uma contradicao.

Teorema A.2.1. Toda sentenca de L e equivalente a uma FND.

Demonstracao. Se ϕ ∈ L for uma contradicao, basta representa-la por A∧¬A. Seja ϕ ∈ Luma sentenca que nao seja uma contradicao. Vamos construir uma FND equivalente a

ϕ formando suas descricoes de estado com literais referentes as sentencas atomicas que

compoem ϕ. Para cada linha da tabela-verdade de ϕ que tem valor 1, construımos uma

descricao de estado com literais sem negacao para aquelas sentencas atomicas que tem

valor 1 na linha em questao e com literais negados para as sentencas que tem valor 0.

Assim, por exemplo, para a sentenca A→ B, que tem tabela-verdade:

A B A→ B1 1 11 0 00 1 10 0 1

temos a seguinte forma normal disjuntiva:

(A ∧B) ∨ (¬A ∧B) ∨ (¬A ∧ ¬B).

Para finalizar, dada uma valoracao v tal que v(ϕ) = 1, vemos que a descricao de estado

da FND construıda para ϕ relacionada a linha da tabela-verdade relativa a valoracao v

tambem toma valor 1. Por outro lado, se v(ϕ) = 0, a descricao de estado relacionada

a esta linha da tabela-verdade nao esta na FND construıda. Esta descricao de estado

tomaria valor 1 por v e, pelo Lema A.2.1, todas as outras tomam valor 0. Portanto,

v(ϕ) = 0. E, assim, esta demonstrada a equivalencia.

E importante notar que uma sentenca pode ter mais de uma FND. Quando for ne-

cessario enfatizar que a FND a qual nos referimos e aquela construıda como no teorema

anterior, a chamaremos de forma normal disjuntiva canonica (FND canonica). O proximo

104

teorema trata de duas propriedades importantes das FNDs sendo que a segunda e sobre

FNDs canonicas.

Teorema A.2.2. Seja o conjunto de sentencas atomicas α = A1, . . . , An e a sentenca

ϕ ∈ L (que nao seja contradicao) composta pelos elementos de α. Segue que:

1. A FND formada pela disjuncao de todas as descricoes de estado de α e uma sentenca

valida de LPC.

2. A FND canonica de ϕ e unica a menos de permutacao das descricoes de estado que

a formam e permutacao de literais em cada descricao de estado.

Demonstracao. 1. Seja v uma valoracao de LPC tal que v(Ai) = ai ∈ 0, 1, i =

1, . . . , n. Se v(Ai) = 0, denotaremos A′i = ¬Ai e se v(Ai) = 1, denotaremos A′i = Ai.

Logo, v(A′1 ∧ · · · ∧ A′n) = 1 e, portanto, a FND em questao tem valor 1 por v.

2. Supondo que exista outra FND canonica para ϕ, esta FND deve ser composta

por pelo menos uma descricao de estado do conjunto de sentencas atomicas de ϕ

que nao esta na FND construıda pelo metodo do Teorema A.2.1 ou, entao, deve

omitir alguma descricao de estado que esta na construcao. Porem, se tirarmos

uma descricao de estado da construcao, havera uma linha na tabela-verdade que

representa uma valoracao v e que da valor 1 a esta descricao omitida. Pelo Lema

A.2.1, todas as outras descricoes de estado de α terao valor 0 por v e, entao, a nova

FND tera valor 0 por v, que e uma contradicao. Por outro lado, se colocarmos mais

uma descricao de estado na construcao do Teorema A.2.1, tambem pelo Lema A.2.1,

qualquer valoracao que valida esta descricao de estado, tem valor 0 para todas as

outras e, alem disso, esta valoracao tem valor 0 para a sentenca ϕ, pela construcao

do Teorema A.2.1.

Em algumas situacoes, ao inves de usarmos a FND canonica de uma sentenca ϕ,

usamos a FND que contem, alem das sentencas atomicas que a compoem, algumas outras

sentencas atomicas. Para verificar a equivalencia, basta substituir cada DE de uma FND

por uma expressao do tipo tratado pelo teorema a seguir, cada vez adicionando uma nova

sentenca atomica.

Teorema A.2.3. Se ∆ e uma descricao de estado de α e C /∈ α e uma sentenca atomica,

entao ∆ e equivalente a (∆ ∧ C) ∨ (∆ ∧ ¬C).

105

Demonstracao. Seja v uma valoracao de LPC. Se v(∆) = 0, entao, v(∆ ∧ C) = v(∆ ∧¬C) = 0. Se v(∆) = 1 e v(C) = 1, segue que v(∆ ∧ C) = 1 e temos o resultado. Caso

v(C) = 0, temos v(¬C) = 1 e tambem temos o resultado.

Algumas vezes, para testar se uma descricao de estados K faz parte da FND de uma

sentenca ϕ, simplesmente verificamos se ` K → ϕ. Este teste se justifica pelo seguinte

teorema.

Teorema A.2.4. Sejam ϕ ∈ L uma sentenca e K1, . . . , Kn um conjunto de sentencas

atomicas de forma que, para um conjunto de ındices I ⊂ 1, . . . , n, tenhamos ` ϕ ↔∨i∈I Ki. Entao, se ` Ki → ϕ, segue que i ∈ I. E, se ` Ki → ¬ϕ, i /∈ I.

Demonstracao. Para uma valoracao v tal que v(Ki) = 1, se ` Ki → ϕ, segue que v(ϕ) = 1.

Alem disso, pelo Lema A.2.1, terıamos v(Kj) = 0 para todos os outros j 6= i. Portanto,

como ` ϕ↔∨i∈I Ki, segue que i ∈ I.

Por outro lado, com a mesma valoracao, ainda temos que v(ϕ) = 1. Logo, se ` Ki →¬ϕ, terıamos uma contradicao, pois terıamos v(¬ϕ) = 1, o que nao pode ocorrer em uma

valoracao.

Apendice B

Otimizacao Linear

Este apendice e dedicado a introduzir os Problemas de Otimizacao Linear, bem como

os resultados sobre estes problemas que sao utilizados neste texto, especificamente no

Capıtulo 3. Nossa referencia e (Hur10).

B.1 Problemas de Otimizacao Linear

Um dos principais metodos apresentados nesta dissertacao, no Capıtulo 3 e baseado

na resolucao de um Problema de Otimizacao Linear (POL). Primeiro, um problema de

otimizacao e o problema de encontrar o valor maximo ou o valor mınimo de uma funcao,

chamada funcao objetivo, dadas possıveis restricoes. Este valor maximo ou mınimo, se

encontrado, e dito solucao otima do problema de otimizacao.

Por exemplo, seja f : R→ R uma funcao dada por f(x) = x2 − 1. Esta funcao atinge

seu valor mınimo em x = 0, pois f(0) = −1 e, para qualquer x ∈ R, f(x) ≥ −1. Porem,

f nao possui um valor maximo, pois para qualquer x0 ∈ R, sempre existe x1 ∈ R tal que

f(x1) > f(x0).

Agora, se assumirmos alguma restricao no domınio da funcao f , por exemplo, se nos

interessar somente os valores x tais que x ≤ 7 e x > −12, o mınimo de f continua sendo

−1, mas, agora, ela passa a possuir um valor maximo para x = 7, a saber, f(7) = 46. E,

para qualquer x tal que −12< x ≤ 7, f(x) ≤ f(7).

Um POL e um problema de otimizacao em que a funcao objetivo e suas restricoes

sao lineares. A forma standard de um POL e dada por uma funcao objetivo do tipo

z : Rn → R, tal que

z = c1x1 + · · ·+ cnxn,

106

107

com ci ∈ R, i = 1, . . . , n, e por restricoes

a11x1 + · · · + a1nxn ≤ b1...

...am1x1 + · · · + amnxn ≤ bm

com aij ∈ R, de forma que, para i fixo e algum j, aij 6= 0, e com bi ∈ R, i = 1, . . . ,m, e,

tambem, pela restricao

xi ≥ 0, i = 1, . . . , n.

Se considerarmos a matriz

A =

a11 · · · a1n...

. . ....

am1 . . . amn

,o vetor linha c = [c1, . . . , cn] e os vetores coluna x = [x1, . . . , xn]T e b = [b1, . . . , bm]T ,

podemos escrever, na forma matricial, a funcao objetivo como

z = cx

e as restricoes como

Ax ≤ b

x ≥ 0.

Chamamos de sistema associado as restricoes anteriores ao sistema formado por todas as

equacoes de

Ax = b

x = 0.

Chamamos um ponto x∗ = [x∗1, . . . , x∗n]T ∈ Rn satisfatıvel, se ele satisfaz as restricoes

do problema considerado e insatisfatıvel, caso contrario. Um POL e dito satisfatıvel se a

regiao determinada por suas restricoes tiver pontos satisfatıveis e, se nao houver, o POL

e dito insatisfatıvel. Pode haver POLs que nao possuem pontos satisfatıveis e, portanto,

nao possuem solucao.

B.2 Problema Dual

A um POL de maximizar uma funcao

z = cx

108

com as restricoes

Ax ≤ b

x ≥ 0,

esta associado um outro POL, agora de minimizar a funcao

w = bTy,

em que y = [y1, . . . , ym]T , com as restricoes

ATy ≥ cT

y ≥ 0.

Este segundo POL e o Problema Dual do POL standard original e a relacao entre eles e

dada pelo seguinte resultado, chamado Teorema Dual, demonstrado em (Hur10).

Teorema B.2.1. Se um POL possui solucao otima z∗, o seu problema dual tambem possui

solucao otima w∗ e, ainda, z∗ = w∗.

B.3 Solucoes

As restricoes de um POL satisfatıvel determinam uma regiao de Rn de todos os seus

pontos satisfatıveis chamada poliedro. Vejamos algumas propriedades dos pontos que sao

solucoes de POLs.

Dizemos que um ponto x∗ = [x∗1, . . . , x∗n]T de um poliedro e um ponto extremo deste

poliedro, quando x for a unica solucao de um algum subsistema formado por exatamente

n equacoes do sistema associado as restricoes que determinam o poliedro.

Dizemos que um poliedro e limitado, se existir um numero K ∈ Z de modo que, para

todos os pontos x = [x1, . . . , xn]T deste poliedro, tivermos que

|xi| ≤ K (i = 1, . . . , n).

Alguns poliedros que nos interessam neste texto sao limitados ou possuem pontos extremos

e a importancia disto e vista pelos resultados seguintes, cujos roteiros para demonstracao

podem ser encontrados em (Hur10).

Teorema B.3.1. Se o poliedro determinado pelas restricoes de um POL satisfatıvel for

limitado, entao a solucao deste POL estara em um ponto extremo do poliedro.

109

Teorema B.3.2. Se o poliedro determinado pelas restricoes de um POL possuir um ponto

extremo e este POL possuir solucao, entao a solucao deste POL estara em um ponto

extremo do poliedro.

Portanto, um metodo de resolucao de POLs satisfatıveis na forma standard cujas

restricoes determinam regioes limitadas pode ser dado pelo seguinte algoritmo:

1. Encontrar todos os pontos extremos x∗1, . . . ,x∗j do poliedro determinado pelas res-

tricoes:

(a) Procurar as solucoes unicas de todos os subsistemas de n equacoes, dentre as

equacoes de Ax = b e x = 0;

(b) Determinar se estas solucoes unicas sao pontos do poliedro do problema tes-

tando se eles satisfazem as restricoes Ax ≤ b e x ≥ 0;

2. Procurar o maior elemento dentre cx∗1, . . . , cx∗j . Este elemento e a solucao otima.

Este nao e o metodo mais eficiente de resolucao de POLs, mas serve para podermos,

ao menos, exibir solucoes para as questoes que tratamos neste texto. Outros metodos

de resolucao, como o conhecido Metodo Simplex, podem ser encontrados na bibliografia

recomendada.

sandro m arcio da silva preto - repositorio.unicamp.br€¦ · sandro m arcio da silva preto...

Documents