sandro m arcio da silva preto - repositorio.unicamp.br€¦ · sandro m arcio da silva preto...
TRANSCRIPT
Universidade Estadual de CampinasInstituto de Filosofia e Ciencias Humanas
Sandro Marcio da Silva Preto
Logica, Probabilidade eConsequencia
Campinas
2015
Agência(s) de fomento e nº(s) de processo(s): CNPq, 131956/2013-2
Ficha catalográficaUniversidade Estadual de Campinas
Biblioteca do Instituto de Filosofia e Ciências HumanasCecília Maria Jorge Nicolau - CRB 8/3387
Preto, Sandro Márcio da Silva, 1988- P927L PreLógica, probabilidade e consequência / Sandro Márcio da Silva Preto. –
Campinas, SP : [s.n.], 2015.
PreOrientador: Walter Alexandre Carnielli. PreDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de
Filosofia e Ciências Humanas.
Pre1. Lógica. 2. Linguagens formais - Semântica. 3. Probabilidades. I. Carnielli,
Walter Alexandre,1952-. II. Universidade Estadual de Campinas. Instituto deFilosofia e Ciências Humanas. III. Título.
Informações para Biblioteca Digital
Título em outro idioma: Logic, probability, and consequencePalavras-chave em inglês:LogicFormal languages - SemanticsProbabilitiesÁrea de concentração: FilosofiaTitulação: Mestre em FilosofiaBanca examinadora:Marco Antonio Caron RuffinoMarcelo FingerJuliana Bueno-SolerData de defesa: 25-09-2015Programa de Pós-Graduação: Filosofia
Powered by TCPDF (www.tcpdf.org)
Universidade Estadual de CampinasInstituto de Filosofia e Ciencias Humanas
A Comissao Julgadora dos trabalhos de Defesa de Dissertacao de Mestrado, composta pe-
los Professores Doutores a seguir descritos, em sessao publica realizada em 25 de setembro
de 2015, considerou o candidato Sandro Marcio da Silva Preto aprovado.
Prof. Dr. Marco Antonio Caron Ruffino
Prof. Dr. Marcelo Finger
Profa. Dra. Juliana Bueno-Soler
A Ata de Defesa, assinada pelos membros da Comissao Examinadora, consta
no processo de vida academica do aluno.
Dedico ao meu sobrinho
e afilhado Afonso.
Agradecimentos
Antes de mais nada, agradeco aos meus pais Marcio e Rubia. Esta dissertacao ou
qualquer outra conquista minha e tambem conquista deles, por todos os seus esforcos e,
muitas vezes, sacrifıcios. Nao ha linguagem com poder de expressao capaz de capturar
minha gratidao e meus sentimentos por estes dois.
Agradeco tambem a minha irma Nubia, sempre incentivadora e entusiasta de meus
projetos, e ao pequeno Afonso, que acompanhou apenas alguns meses deste trabalho e
agora e a quem o dedico.
Agradeco ao meu orientador Professor Walter que, sabiamente, me introduziu ao
mundo das probabilidades e das apaixonantes questoes filosoficas. Tambem, a todos os
professores, colegas e amigos do Centro de Logica, que fomentaram nos ultimos tempos
meu amadurecimento intelectual e com quem compartilhei agradaveis momentos.
Sao tantos os amigos responsaveis por minha formacao enquanto gente e, consequente-
mente, enquanto academico que, com medo do imperdoavel crime de omitir algum nome,
omitirei todos. No entanto, citarei os saudosos contextos de nosso convıvio. Assim, tem
minha gratidao os amigos da querida Guaranesia “das manhas orvalhadas”, os amigos
de camisa amarela da animada Sao Carlos, os sabios amigos de republica da grandiosa
Campinas, e, evidente, todos os amigos que fiz nas orbitas destes contextos.
Sou tambem grato aos que acompanham e ajudam a construir minhas mais recentes
experiencias no Instituto Federal em Formiga: meus amigos e colegas de trabalho e, claro,
aqueles que tem o dom de me sensibilizar e humanizar a cada dia, meus alunos.
Resumo
Uma das maneiras conhecidas de representar a incerteza e atraves das probabilida-
des. Para estudar o raciocınio sob incerteza deste ponto de vista, mostramos como e
possıvel associar valores de probabilidade a sentencas de uma linguagem formal defi-
nindo semanticas probabilısticas com suporte na logica classica e em algumas logicas
nao-classicas. Definimos e analisamos relacoes de consequencia probabilıstica baseadas
na semantica probabilıstica. Para tal, estudamos tambem as valoracoes probabilısticas
com auxılio de ferramentas matematicas como a algebra linear e a otimizacao linear. Alem
disto, apresentamos as principais interpretacoes do conceito de probabilidade e introdu-
zimos algumas outras formas de combinar logica e probabilidades.
Palavras chave: Logica, Linguagens formais - Semantica, Probabilidades.
Abstract
A well-known way to represent uncertainty is through probabilities. In order to study
the concept of uncertainty reasoning from this point of view, we show how it is possible
to associate probability values to sentences in a formal language by defining in detail the
notion of probability semantics supported by classical logic and by some non-classical
logics. We define and analyze the concept of probabilistic consequence relations based on
probabilistic semantics. To this end, we also study probabilistic valuations assisted by
mathematical tools such as linear algebra and linear optimization. In addition, we present
some of the main concepts of probability interpretation and introduce some other ways
to combine logic and probabilities.
Keywords: Logic, Formal languages - Semantics, Probabilities.
Sumario
Introducao 11
1 Sobre Probabilidades e suas Interpretacoes 13
1.1 O Calculo de Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 A Probabilidade Classica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 A Probabilidade Frequentista . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 A Probabilidade Subjetiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.5 A Probabilidade Logica, a questao da inducao e as logicas indutivas . . . . 27
1.6 A Probabilidade Propensista . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2 Semantica Probabilıstica e Propagacao de Incerteza 36
2.1 Raciocınio sob incerteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2 Axiomatizando a Teoria de Probabilidades . . . . . . . . . . . . . . . . . . 38
2.3 Conjuntos versus sentencas . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Semantica probabilıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5 Majorando a incerteza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.6 Consequencia probabilıstica de Adams . . . . . . . . . . . . . . . . . . . . 58
3 Valoracoes Probabilısticas e Estimativas de Probabilidade 60
3.1 Pior caso e aceitacao racional . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Algebra linear e valoracoes probabilısticas . . . . . . . . . . . . . . . . . . 62
3.3 Majoracao e minoracao otimas . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 O problema da Satisfatibilidade Probabilıstica . . . . . . . . . . . . . . . . 67
3.5 Computacao de Mψ e mψ . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.6 Consequencia probabilıstica de Hailperin . . . . . . . . . . . . . . . . . . . 75
4 Probabilidades em Logicas Nao-Classicas 78
4.1 O provavel enquanto modalidade . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 Probabilidades multivaloradas . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3 Probabilidades paraconsistentes . . . . . . . . . . . . . . . . . . . . . . . . 85
Consideracoes Finais 92
Bibliografia 95
A Formas Normais Disjuntivas 102
A.1 Definicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
B Otimizacao Linear 106
B.1 Problemas de Otimizacao Linear . . . . . . . . . . . . . . . . . . . . . . . . 106
B.2 Problema Dual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.3 Solucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Introducao
Embora ja em autores classicos da logica moderna, como A. De Morgan (DM47) e
G. Boole (Boo54), a Logica e a Teoria de Probabilidades se mostrarem de maos dadas, o
termo logica probabilıstica - definido ainda nesta introducao - pode, como observou Hajek
(Haj01), parecer um oximoro. De um lado, a logica e a disciplina que trata do que e
“imutavel, necessario e certo” e, de outro, as probabilidades se referem “ao incerto, ao
aleatorio, ao inconstante”1. Ainda, no verbete Logic and Probability, da Stanford Encyclo-
pedia of Philosophy (DKS14), as diferencas sao ressaltadas mostrando que a logica oferece
uma perspectiva qualitativa da inferencia, dado que a validade de um argumento repousa
em sua estrutura formal, e as probabilidades oferecem uma perspectiva quantitativa, pois
medem a certeza numericamente.
No sistema da logica proposicional classica, tratado na maior parte deste texto, uma
inferencia e chamada valida quando, por sua estrutura, se suas premissas forem verda-
deiras, sua conclusao necessariamente tambem sera. Nao faltam exemplos classicos de
inferencias validas: modus ponens, silogismo disjuntivo, silogismo hipotetico, etc. No en-
tanto, em muitos casos e comum nao se saber ao certo se sentencas sao verdadeiras ou
falsas, tornando ineficaz o conhecimento das inferencias validas.
A proposta que estudamos, seguindo a linha de E. W. Adams (Ada98), e justamente
medir o grau de certeza que temos sobre a veracidade destas sentencas atraves das pro-
babilidades. Daı se deriva a nocao de semantica probabilıstica, que oferece a possibilidade
de associar probabilidades as sentencas da linguagem proposicional. Neste trabalho abor-
daremos, ainda que de forma elementar e tentativa, tanto a logica classica como algumas
nao-classicas. A proposta inclui estudar como os graus de certeza, isto e, as probabilida-
des, se comportam quando submetidos a relacao de consequencia logica (que modela as
inferencias validas) e que outros tipos de relacoes de consequencias podem nascer desta
combinacao.
Ambas as disciplinas, a Logica e a Teoria de Probabilidades, sao ferramentas adequa-
das para descrever o raciocınio, apesar de nao serem as unicas. Neste trabalho, vamos
1Traducoes nossas de “immutable, necessary and certain” e “the uncertain, the random, the capricious”em (Haj01).
11
12
apresentar a semantica probabilıstica como uma ferramenta fruto da comunhao entre
logica e probabilidades, com objetivo de obter uma forma de tratar o raciocınio quando
ha presenca de incerteza. Entendemos, na maior parte desse texto, logicas probabilısticas
como os sistemas logicos determinados por uma relacao de consequencia derivada desta
semantica probabilıstica. As excecoes sao os sistemas em que sao combinadas de modo
alternativo logicas nao-classicas e probabilidades.
No Capıtulo 1 apresentamos brevemente a Teoria de Probabilidades atraves da sua
teoria matematica de calculo. Alem disso, mostramos que nao existe um consenso sobre a
natureza de probabilidade com uma breve exposicao das principais correntes que tratam
este assunto.
No Capıtulo 2, definimos a semantica probabilıstica, principal objeto de estudo desta
dissertacao, de forma a expressar a nocao de incerteza sobre sentencas. Definimos,
tambem, algumas relacoes de consequencia probabilıstica, baseadas nas caracterizacoes
da inferencia que se obtem de acordo com os resultados que relacionam a semantica pro-
posta nesta dissertacao e a relacao de consequencia da logica classica.
Com vies mais tecnico-matematico, o Capıtulo 3 aprofunda o estudo dos constituintes
da semantica probabilıstica: as valoracoes probabilısticas. Este estudo pretende resolver
questoes como a determinacao da estimativa otima da probabilidade de uma sentenca.
Finalizando o trabalho, o Capıtulo 4 quebra a linha classica que e adotada ate entao
e explora sistemas modais com um operador de probabilidades. Alem disso, introduz um
tema de desenvolvimento recente: semanticas probabilısticas para logicas nao-classicas.
Ainda, no Apendice A, estudamos as Formas Normais Disjuntivas e, no Apendice
B, introduzimos a Teoria de Otimizacao Linear, assuntos de papel importante para o
entendimento das valoracoes probabilısticas, nos Capıtulos 2 e 3.
As Consideracoes Finais retomam os capıtulos anteriores, de forma a sumarizar os
principais pontos desta dissertacao, e apresenta alguns caminhos de pesquisa que podem
motivar trabalhos mais especıficos.
Capıtulo 1
Sobre Probabilidades e suasInterpretacoes
Como, em nosso enfoque a Teoria de Probabilidades representa a incerteza das sen-
tencas, nada mais justo que discutir sua natureza. Comecamos com a apresentacao do
calculo de probabilidades, atraves da axiomatica de Kolmogorov (Kol33) e, entao, levan-
tamos algumas questoes ligadas a sua especificidade. Por este ser um assunto com varios
pontos de vista dissonantes, apresentamos os principais deles.
O maior objetivo deste capıtulo e introduzir algumas das interpretacoes do conceito
de probabilidades sem contudo nos aprofundar em nenhuma delas. A principal referencia
em que nos baseamos e (Gil00). Outras referencias bastante recomendadas sao (Eag10) e
(Sky10).
Na Secao 1.5, ao falar da interpretacao logica das probabilidades, discutimos tambem
a questao da inducao e as logicas indutivas.
1.1 O Calculo de Probabilidades
Uma correspondencia entre Fermat e Pascal, de 1654, e usualmente tomada por marco
inicial do desenvolvimento da Teoria de Probabilidades. Os dois matematicos estudaram
alguns problemas de apostas em jogos de azar, e esse tipo de problema permeou, por um
bom tempo, o estudo desta teoria que teve inıcio na Franca do seculo XVII. Claro que
um acontecimento cientıfico como o inıcio dos estudos de uma teoria dificilmente pode ser
especificado no tempo e, de fato, Fermat e Pascal tiveram predecessores. Mas o trabalho
deles inspirou outros matematicos e deu inıcio ao desenvolvimento sistematico da teoria.
Apesar do estudo das probabilidades ter tido inıcio no seculo XVII, somente no seculo
XX aparece, com A. N. Kolmogorov (Kol33), uma axiomatizacao sistematica. Esta axi-
omatizacao e largamente aceita como a formulacao correta do calculo de probabilidades,
embora uma parcela de matematicos e filosofos discorde e proponha sistemas alternativos
13
14
de calculo, sobre o que discorreremos ainda nesta secao.
Kolmogorov axiomatiza a Teoria de Probabilidades por meio de uma funcao de proba-
bilidade definida sobre uma algebra de conjuntos. Uma algebra F de subconjuntos sobre
um conjunto Ω e uma classe nao-vazia de subconjuntos de Ω fechada por complemen-
tos em relacao a Ω e por unioes finitas. Os elementos de F sao chamados de eventos e
podemos precisar a seguinte definicao:
Definicao 1.1.1. Sejam Ω um conjunto, F uma algebra de subconjuntos sobre Ω e os
conjuntos A,B ∈ F . Uma funcao de probabilidades sobre F e uma funcao P : F → Rque satisfaz os axiomas:
K1 P (A) ≥ 0;
K2 P (Ω) = 1;
K3 Se A ∩B = ∅, entao P (A ∪B) = P (A) + P (B).
A partir destes axiomas pode-se calcular, por exemplo, que P (∅) = 0. De fato, como
Ω ∩ ∅ = ∅ e Ω ∪ ∅ = Ω, o resultado segue imediatamente dos axiomas K2 e K3.
Como exemplo, podemos tomar o conjunto Ω = 1, 2, 3, 4, 5, 6, de todas as possi-
bilidades da face de um dado cair para cima em uma jogada e, como algebra, o con-
junto de todos os subconjuntos de Ω. Para os valores das probabilidades, podemos ter
P (1) = · · · = P (6) = 16. Caso em que tambem temos P (1, 3, 5) = 1
2e P (Ω) = 1.
Este exemplo ilustrativo independe de qualquer nocao de probabilidade apesar de ser uma
instancia da Probabilidade Classica, estudada adiante.
A Definicao 1.1.1 e, na verdade, somente uma das duas versoes que Kolmogorov propoe,
chamada por ele de Teoria Elementar de Probabilidades. A segunda versao que ele apre-
senta toma por domınio da funcao de probabilidade uma σ-algebra: um conjunto que,
alem das propriedades de uma algebra, tambem e fechado por unioes enumeraveis. E,
para axiomatizar a teoria, basta substituir o axioma K3, conhecido por axioma da aditi-
vidade finita, pelo axioma da aditividade enumeravel :
K3’ Se A1, A2, . . . e uma sequencia enumeravel de conjuntos dois-a-dois disjuntos de Ω,
entao
P( ∞⋃n=1
An
)=∞∑n=1
P (An).
A aceitacao da aditividade enumeravel e objeto de bastante discussao entre os especia-
listas. O proprio Kolmogorov entende que os espacos infinitos sao apenas uma idealizacao
15
dos processos aleatorios reais mas, mesmo assim, se limita a estudar os modelos que
satisfazem a aditividade enumeravel1.
Since the new axiom is essential for infinite fields of probability only, it is
almost impossible to elucidate its empirical meaning [...] Infinite fields of pro-
bability occur only as idealized models of real random processes. We limit
ourselves, arbitrarily, to only those models which satisfy Axiom VI. This limi-
tation has been found expedient in researches of the most diverse sort. (Kol56,
traducao para o ingles de (Kol33))
Por outro lado, De Finetti, um dos principais teoricos das probabilidades subjetivas,
nega a aditividade enumeravel e somente trabalha com a aditividade finita (Secao 1.4).
Chamamos a axiomatica que considera somente a aditividade finita de caso finito da
teoria de Kolmogorov, e a axiomatica com a aditividade enumeravel de caso infinito.
Outro importante conceito levado em conta por Kolmogorov e o de probabilidade con-
dicional, definido para eventos A,B ∈ Ω, desde que P (B) 6= 0, pelo quociente
P (A|B) =P (A ∩B)
P (B).
Para Kolmogorov, este quociente define uma nova funcao com dois argumentos, que,
por um abuso de notacao, leva o mesmo nome da funcao de probabilidades a qual ela e
associada. Ha, no entanto, uma discussao se este quociente e realmente uma definicao ou
deveria ser entendido a partir de um axioma que governa um novo operador binario, dado
que o conceito pre-teorico de probabilidade condicional pode nao se alinhar perfeitamente
com a “definicao”. A. Hajek discute esta questao em (Haj03). De qualquer forma, por
motivos tecnicos, nao e incomum tomarmos nos sistemas formais o quociente como uma
definicao e desenvolvermos a teoria matematica, tambem, a partir dele.
A probabilidade condicional tem o objetivo de modelar o calculo da probabilidade de
um evento A quando assumimos que um evento B ocorre. Lemos a notacao P (A|B) como:
probabilidade de A, dado B. A probabilidade de, ao jogar um dado, cair para cima a face
com o numero 3, dado que assumimos que a face que caiu e de um numero ımpar, e a
probabilidade condicional dada por P (3|1, 3, 5) = 13, de acordo com o exemplo que
demos acima nesta secao.
Apesar de algumas excecoes, como os eventos Ω e ∅, a funcao de probabilidade nao
determina valores para os eventos em geral, assim como a logica nao determina, em geral,
1No trabalho original, Kolmogorov coloca o que chama de axioma da continuidade ao inves do equi-valente axioma da aditividade enumeravel em seu sistema.
16
valores de verdade para as sentencas. Tais valores devem ser buscados fora da teoria
matematica. A questao que se coloca e a de entender o que sao as probabilidades. E aı,
alem do aspecto matematico, formalizado pela teoria de Kolmogorov, as probabilidades
tem tambem um aspecto filosofico. Este ultimo, diferente do primeiro, nao e unanimidade
e ha divergencias gritantes entre os filosofos sobre a natureza das probabilidades.
Devido a grande aceitacao da axiomatizacao de Kolmogorov e ao fato deste sistema
ser desenvolvido em estagio cada vez mais avancado, W. Salmon (Sal66) defende a im-
portancia de verificar se cada interpretacao do conceito de probabilidade, entendendo ao
seu modo a sua natureza, esta em consonancia com a axiomatizacao de Kolmogorov. Ao
criterio que dita que, para se aceitar uma interpretacao do conceito de probabilidade, esta
interpretacao deve satisfazer a teoria de Kolmogorov, chama-se criterio de admissibilidade.
No entanto, ha crıticas quanto a adocao deste criterio. Humphreys nota problemas
para algumas interpretacoes em se impor a admissibilidade.
It is time, I believe, to give up the criterion of admissibility. We have seen that
it places an unreasonable demand upon one plausible construal of propensities.
Add to this the facts that limiting relative frequencies violate the axiom of
countable additivity [2] and that their probability spaces are not sigma-fields
unless further constraints are added; that rational degrees of belief, according
to some accounts, are not and cannot sensibly be required to be countably
additive; and that there is serious doubt as to whether the traditional theory
of probability is the correct account for use in quantum theory. Then the
project of constraining semantics by syntax begins to look quite implausible
in this area. (Hum85)
Segundo Lyon (Lyo14), a conclusao de Humphreys e que o sistema axiomatico da Teoria
de Probabilidades adotado deve ser sensıvel a interpretacao de probabilidade adotada,
e nao o contrario. K. R. Popper, proponente da interpretacao propensista (Secao 1.6),
sistematiza diversos calculos de probabilidade alem de determinar uma nova interpretacao.
Ha ainda outras propostas de axiomatizacao da Teoria de Probabilidades, como a de
Renyi, em (Ren55). Renyi propoe uma axiomatica em que o conceito fundamental e o de
probabilidade condicional. Seu espaco de probabilidade condicional e uma generalizacao
da estrutura de Kolmogorov, que pode ser restaurada como caso particular da estrutura
de Renyi.
Outra disputa sobre probabilidades, segundo observacao de J. Bueno-Soler e W. Car-
nielli (BSC15), aparece na existencia de duas tradicoes que diferem sobre qual entidade
2Veja Secao 1.3.
17
sao associados valores de probabilidades. De um lado, em 1933, Kolmogorov introduziu
as probabilidades definidas sobre conjuntos ou eventos, uma abordagem ligada a Teoria
da Medida, um ramo da matematica em que as funcoes de probabilidade sao casos parti-
culares de medidas sobre conjuntos3. Porem, de outro lado, uma abordagem mais antiga
e a associacao de probabilidades sobre sentencas de uma linguagem, como usada por G.
W. Leibniz (1646-1716), defensor do uso de probabilidades em um novo tipo de logica,
em (Lei77), A. De Morgan (1806-1871) em (DM47) e G. Boole (1815-1864) em (Boo54),
dentre outros.
J. Bueno-Soler e W. Carnielli ainda notam que as probabilidades sobre conjuntos,
hoje em dia, sao majoritariamente usadas por matematicos, estatısticos e engenheiros
e as probabilidades sobre sentencas sao preferidas por filosofos e logicos. Veremos nas
interpretacoes apresentadas neste capıtulo exemplos de ambas as tradicoes e, na Secao
2.3, mostraremos uma maneira de relaciona-las.
Nas proximas secoes veremos algumas das mais importantes interpretacoes, veremos
como elas interpretam os conceitos de evento e probabilidade e discutiremos a questao
da satisfatibilidade, por cada uma delas, da teoria de Kolmogorov. Estas interpretacoes
nao excluem necessariamente umas as outras. Para alguns filosofos, elas podem coexistir
e, dependendo do contexto, diferentes interpretacoes podem se encaixar como sendo a
correta. Ja outros nao tem este entendimento pluralista e defendem que somente uma
delas e a teoria correta, como De Finetti.
As interpretacoes do conceito de probabilidade sao geralmente classificadas em dois
grandes grupos: o grupo das interpretacoes objetivas e o grupo das interpretacoes sub-
jetivas. As interpretacoes objetivas entendem que probabilidades sao propriedades dos
fenomenos da natureza e independem do conhecimento e de outras nocoes epistemicas
como crenca, de modo que podem ser realmente medidas objetivamente. Ja as teorias
subjetivas veem probabilidades como entidades relacionadas ao conhecimento do homem
e, portanto, podem variar de acordo com o agente.
Veremos nas proximas secoes exemplos de cada um destes grupos. Mas esta clas-
sificacao tambem nao e unanime. Pode-se colocar dentre os grupos um outro que visa
classificar teorias que entendem as probabilidades como medidas das evidencias objeti-
vas. Nesta outra classificacao, entraria, por exemplo, a interpretacao classica, abordada
a seguir.
3Boas referencias sobre Teoria da Medida sao (RF10) e (Fol99). Na segunda, encontra-se o desenvol-vimento da Teoria de Probabilidades partindo de um espaco de medida.
18
1.2 A Probabilidade Classica
A interpretacao classica do conceito de probabilidade foi advogada, dentre outros, por
P. S. Laplace e foi fortemente influenciada pelo Iluminismo europeu. Num perıodo em que
o Determinismo Universal, sobre o qual decorremos brevemente abaixo, era amplamente
aceito, a interpretacao da nocao de probabilidade aparece como a medida da ignorancia
do ser humano.
A tese do Determinismo Universal e uma consequencia do sucesso da mecanica new-
toniana, que tornou capaz de descrever e prever o movimento dos corpos macroscopicos
com a utilizacao de equacoes matematicas, e Determinismo Universal e a crenca na extra-
polacao desta capacidade para outros fenomenos. O proprio Laplace deu uma das mais
famosas descricoes desta tese iluminista em seu Essai philosophique sur les probabilites :
We ought then to regard the present state of the universe as the effect of its
anterior state and as the cause of the one which is to follow. Given for one
instant an intelligence which could comprehend all the forces by which nature
is animated and the respective situation of the beings who compose it - an
intelligence sufficiently vast to submit these data to analysis - it would embrace
in the same formula the movements of the greatest bodies of the universe and
those of the lightest atom; for it, nothing would be uncertain and the future,
as the past would be present to its eyes.
(Lap51, traducao para o ingles de (Lap40))
A inteligencia vasta a qual Laplace se refere ficou conhecida como o Demonio de La-
place. Hoje em dia, com as descobertas de que as leis da mecanica quantica diferem das
leis da mecanica Newtoniana e com o uso essencial das probabilidades nesta ciencia4,
varias crıticas sao feitas ao Determinismo Universal e sao levantadas teses de que o uni-
verso e indeterminıstico por natureza. Porem, para Laplace, o universo era determinıstico
e a probabilidade e um meio de medir a nossa ignorancia sobre o acontecimento de um
evento que poderia ser determinado se tivessemos o conhecimento, as informacoes e a
capacidade de analise de seu demonio.
Deste modo, sem nenhuma evidencia que favoreca uma possibilidade em particular
ou com evidencias que favorecam de maneira igual todas elas, a probabilidade de um
evento e definida como a fracao em que o numerador e o numero de possibilidades que
verificam este evento e o denominador e o numero total de casos possıveis. Vemos que na
4K. R. Popper, em (Pop57), alem de desenvolver sua interpretacao propensista de probabilidade,tambem mostra como esta interpretacao se relaciona com a mecanica quantica.
19
formulacao classica o calculo das probabilidades somente pode ser aplicado quando temos
casos igualmente possıveis. Assim, ao jogar um dado sobre o qual nao temos nenhuma
informacao adicional, nao temos nenhum motivo para crer que uma face caira para cima
em detrimento das outras e, entao, a probabilidade de cair uma face ımpar e de 36
= 12,
pois ha 3 casos em que a face do dado e ımpar e 6 possibilidades no total. Nas palavras
de Laplace:
The theory of chance consists in reducing all the events of the same kind to
a certain number of cases equally possible, that is to say, to such as we may
be equally undecided about in regard to their existence, and in determining
the number of cases favorable to the event whose probability is sought. The
ratio of this number to that of all the cases possible is the measure of this
probability, which is thus simply a fraction whose numerator is the number of
favourable cases and whose denominator is the number of all the cases possible.
(Lap51)
E imediato que esta formulacao verifica os axiomas de Kolmogorov para o caso finito.
Em notacao moderna, chamando o conjunto das possibilidades de Ω e identificando um
evento com um subconjunto A ⊂ Ω, temos que a probabilidade do evento A e dada por:
P (A) =|A||Ω|
,
em que |A| denota a cardinalidade do conjunto A.
Ainda, ao considerarmos outro evento B ⊂ Ω, se B 6= ∅, entao P (B) 6= 0 e podemos
definir a probabilidade condicional por
P (A|B) =|A ∩B||B|
.
E imediato tambem que esta definicao satisfaz o axioma da probabilidade condicional.
A concepcao classica foi aceita por muito tempo. Em 1912, Markov publicou impor-
tantes resultados, sobre as chamadas cadeias de Markov, em um texto que adotava a
definicao classica como fundamento de seus calculos. Ja sobre as crıticas que surgiram a
esta concepcao, podemos destacar o fato dela nao tratar da jogada de um dado viciado,
por exemplo. Von Mises questiona:
But how are we to deal with the problem of a biased die by means of a theory
which knows only probability based on a number of equally likely results?
(VM57)
20
Laplace, porem, se refere a questao de uma moeda viciada em favor de uma das faces
sem que saibamos qual delas. Por conta deste desconhecimento, a probabilidade classica
de cair cada uma das faces para cima em uma jogada e determinada.
But if there exist in the coin an inequality which causes one of the faces to
appear rather than the other without knowing which side is favored by this
inequality, the probability of throwing heads at the first throw will always
be 12; because of our ignorance of which face is favored by the inequality the
probability of the simple event is increased if this inequality is favorable to it,
just so much as it is diminished if the inequality is contrary to it. (Lap51)
Percebemos claramente aqui que a interpretacao classica nao e do tipo objetiva, pois
a probabilidade nao e uma propriedade que se relaciona com os objetos (moedas, dados,
etc), mas com a ignorancia do ser humano em relacao aos resultados possıveis em um expe-
rimento. Tambem pareceria estranho entende-la como um tipo de probabilidade subjetiva,
pois apesar de qualificar o conhecimento do ser humano, sua determinacao nao depende
de um agente em particular, como na interpretacao subjetiva (que veremos ainda neste
capıtulo). Gillies (Gil00) contorna este inconveniente classificando as interpretacoes das
probabilidades em epistemicas, classe a qual pertence a interpretacao classica, e objetivas.
Laplace chega, em algum momento, a tratar do exemplo de uma moeda viciada, para
a qual a probabilidade de sair cara numa jogada e de 1+α2
e de sair coroa e de 1−α2
. Isto
parece ir no caminho de indicar a existencia de uma probabilidade objetiva e desconhecida.
Para Gillies (Gil00), isto e uma inconsistencia no trabalho de Laplace, em que seu calculo
de probabilidades nao representa seu posicionamento filosofico, evidenciando sua falta de
compromisso com probabilidades objetivas.
1.3 A Probabilidade Frequentista
A ideia frequentista de probabilidade tem carater fortemente empirista e apareceu
na metade do seculo XIX, na escola de Cambridge, com R. L. Ellis (Ell44) e J. Venn
(Ven66). Mas, somente ficou famosa no seculo XX com as formulacoes mais sofisticadas
de Reinchenbach (Rei49) e R. Von Mises (VM19; VM57; VM64), sendo esta ultima a que
introduziremos nos proximos paragrafos.
O carater empirista das interpretacoes frequentistas das probabilidades reside no enten-
dimento da teoria como uma ciencia matematica analoga a mecanica e a geometria. Se por
um lado, para a mecanica temos uma teoria que modela matematicamente os fenomenos
observaveis do movimento e para a geometria, uma teoria que modela o espaco fısico,
21
por outro, para as probabilidades, Von Mises entende que estas tratam de outro tipo de
fenomenos que podemos observar na natureza, a saber, os experimentos aleatorios5. Deste
modo, probabilidades sao caracterısticas dos fenomenos que se repetem, independentes do
observador destes fenomenos, dando assim a esta interpretacao o status de objetiva.
[...] just as the subject matter of geometry is the study of space phenomena, so
probability theory deals with mass phenomena and repetitive events. (VM57,
prefacio da terceira edicao alema)
Desta forma, nao sao associadas probabilidades a um determinado experimento, mas
a um conjunto de experimentos de mesmo tipo. Para cumprir seu programa, Von Mi-
ses chama de coletivo esta sequencia de experimentos uniformes, e propoe observar um
atributo, isto e, uma caracterıstica que pode variar, de cada um destes experimentos.
Um exemplo de coletivo e o lancamento subsequente de uma moeda e o atributo a ser
observado e o lado que cai para cima em cada lancamento (cara ou cora).
O conjunto dos atributos possıveis foi chamado por ele de espaco de atributos e, na
terminologia atual, e largamente conhecido por espaco amostral. Denotando os atributos
cara por K e coroa por C, temos o espaco de atributos Ω = K,C. Para refinar
nossos termos, admitiremos qualquer subconjunto de Ω como atributo e chamaremos,
por exemplo, K e C de atributos elementares. No exemplo de um espaco de atributos
Ω = 1, 2, 3, 4, 5, 6 das faces de um dado, podemos ter o atributo ımpar 1, 3, 5.Von Mises diferencia os conceitos de coletivo empırico, que realmente existe e pode
ser observado no mundo real, como o ato de jogar dez vezes uma moeda em sequencia
em determinado tempo e lugar, e o conceito idealizado de coletivo matematico, uma
sequencia infinita de experimentos. Esta sequencia hipotetica de experimentos do coletivo
matematico e, na verdade, um artifıcio tecnico que idealiza os fenomenos observados nas
frequencias relativas.
Vejamos, entao, o que e uma frequencia relativa. Se, ao atributo A, relacionamos um
coletivo empırico C = ω1, . . . , ωN e denotamos por mn(A) a quantidade de vezes que
o atributo A foi verificado nos n primeiros experimentos de C, definimos a frequencia
relativa de A por
frCn (A) =mn(A)
n.
5Preferimos traduzir o termo repetitive events por experimentos aleatorios primeiro, pois ja estamosusando o termo evento para nomear possibilidades para as quais associamos valores de probabilidade emum experimento e, segundo, pois nos parece ser este o termo empregado em portugues contemporanea-mente para se referir ao que Von Mises chama de repetitive events.
22
A partir daı, a lei testada empiricamente que leva ao conceito de coletivo matematico e
o fato de que, quanto mais se aumenta a quantidade de elementos de um coletivo empırico,
mais a frequencia relativa do atributo em questao se aproxima de uma constante. Keynes
(Key21) sugere dar a esta lei o nome de Lei da Estabilidade das Frequencias Estatısticas6.
E, assim, baseando-se nesta lei e munido da ideia de um coletivo matematico (infinito)
C = ω1, ω2, . . ., Von Mises define a probabilidade do atributo A como
P (A) = limn→∞
frCn (A) = limn→∞
m(A)
n.
It is essential for the theory of probability that experience has shown that in
the game of dice, as in all the other mass phenomena which we have mentioned,
the relative frequencies of certain attributes become more and more stable as
the number of observations is increased. (VM57)
Deste modo, com a definicao de probabilidade baseada em uma idealizacao, na pratica,
uma probabilidade so pode ser aproximada atraves de um coletivo empırico. Entao, para
o desenvolvimento formal de sua teoria, Von Mises desenvolve uma axiomatizacao. Assim,
para ele, as leis das probabilidades tambem sao idealizacoes das observacoes empıricas,
como o conceito de coletivo matematico. Segue um dos axiomas da teoria frequentista
em questao.
Axioma 1 (da Convergencia). Seja A um atributo arbitrario de um coletivo (matematico)
C. Entao, existe o limite
limn→∞
frCn (A).
Von Mises ainda percebe a necessidade de outra lei natural que deve ser levada em
conta em sua Teoria de Probabilidades: a aleatoriedade. O avanco que ele oferece as
ideias frequentistas e a observacao do fato de os coletivos nao terem uma ordem. Por
exemplo, em jogadas subsequentes de uma moeda, nao termos a capacidade de prever qual
sera o resultado dos lancamentos. A ideia intuitiva proposta por Von Mises consiste em
relacionar a aleatoriedade com a falha dos sistemas de apostas, que consistem em receitas
para apostar, como a seguinte: depois de tres caras em um lancamento de moeda, aposte
que o proximo sera coroa. Qualquer sistema deste tipo foi fadado ao fracasso.
The authors of such systems have all, sooner or later, had the sad experience
of finding out that no system is able to improve their chances of winning in
the long run, i.e., to affect the relative frequencies with which different colours
6Traducao nossa de Law of Stability of Statistical Frequencies.
23
or numbers appear in a sequence selected from the total sequence of the game.
(VM57)
A formalizacao axiomatica da lei da aleatoriedade sobre coletivos foi proposta satisfa-
toriamente por Church (Chu40), como uma aplicacao da teoria das funcoes recursivas7,
teoria esta que ele mesmo ajudou a desenvolver.
Axioma 2 (da Aleatoriedade). Seja A um atributo arbitrario de um coletivo (matematico)
C = ω1, ω2, . . ., para o qual
limn→∞
frCn (A) = p.
Entao, para qualquer subsequencia C′ = ωn1 , ωn2 , . . . de C especificada por uma funcao
recursiva, levando em conta as frequencias relativas calculadas nesta nova sequencia, te-
mos
limj→∞
frC′
nj(A) = p.
Para finalizar a explanacao da teoria de Von Mises, vejamos como definir probabi-
lidades condicionais nela. A probabilidade condicional P (A|B) de um atributo A de
um experimento, assumindo que o atributo B se verifica e definida naturalmente a par-
tir da intuicao que temos de probabilidade condicional. Seja C = ω1, ω2, . . . o cole-
tivo para o qual verificamos os atributos A e B. Selecionamos de C uma subsequencia
CB = ωn1 , ωn2 , . . . somente dos experimentos em que se verifica o atributo B e, entao,
levando em conta as frequencias relativas calculadas nesta nova sequencia, se P (B) 6= 0,
podemos definir
P (A|B) = limj→∞
frCBnj
(A).
Para que esta definicao seja coerente e necessario garantir que CB seja um coletivo, ou
seja, que obedeca aos axiomas da convergencia e da aleatoriedade. Uma demonstracao
deste fato esta em (Gil00, 111).
A teoria de Von Mises tambem satisfaz os axiomas de Kolmogorov para o caso finito.
Para o caso infinito, Von Mises propoe mais tarde (VM64) adicionar um novo axioma
aos dois ja existentes. Isto resolve a questao de colocar sua teoria no patamar da axi-
omatizacao amplamente aceita, porem, para Gillies (Gil00, 110), esta estrategia mina a
filosofia de formalizar a Teoria de Probabilidades idealizando as leis naturais verificadas
empiricamente. Alem disso, a definicao de probabilidade condicional apresentada satisfaz
o axioma da probabilidade condicional (Gil00, 111).
Uma das crıticas a teoria de Von Mises ja aparece na idealizacao do coletivo ma-
tematico. Ate que ponto e legıtima a representacao de coletivos empıricos atraves de
7O estudo das funcoes recursivas esta fora do escopo deste trabalho. Para isto, veja (CE09).
24
coletivos matematicos? Von Mises responde a estas crıticas com o argumento de que sua
idealizacao e analoga as idealizacoes sobre o infinito feitas na mecanica e na geometria.
Attempts have been made to construct geometries in which no ‘infinitely nar-
row’ lines exist but only those of definite width. The results were meagre
because this method of treatment is much more difficult than the usual one.
Moreover, a strip of definite width is only another abstraction no better than
a straight line [...] (VM57)
Outra questao e o problema do caso unico: em muitas situacoes importantes, para as
quais gostarıamos de definir uma probabilidade, nao e possıvel definir nem um coletivo
empırico. Para Von Mises, sua teoria simplesmente nao se aplica a estes casos.
Our probability theory has nothing to do with questions such as: “Is there
a probability of Germany being at some time in the future involved in a war
with Liberia?” (VM57)
Para Von Mises, a Teoria de Probabilidades se aplica somente aos experimentos que
podem ser repetidos varias vezes, como fica expresso na maxima: “Primeiro o coletivo,
depois a probabilidade”8.
1.4 A Probabilidade Subjetiva
O conceito de probabilidade subjetiva nasce da identificacao de probabilidades com
graus de crenca. Nesta interpretacao, as probabilidades nao sao propriedades dos possıveis
eventos, mas uma gradacao da crenca que um agente (indivıduo) tem na ocorrencia de um
evento. E aceito tambem que diferentes pessoas, com a mesma capacidade de raciocınio
e as mesmas evidencias, tenham um grau diferente de crenca sobre a ocorrencia de um
mesmo evento. Por isto, esta identificacao torna as probabilidades subjetivas.
Dentre as formulacoes com este vies, se destacam as de F. Ramsey (Ram31) e de De
Finetti (DF30a; DF30b; DF30c; DF89; DF93), que foram propostas independentemente
e, apesar de alguns pontos de discordancia, sao muito proximas.
O primeiro problema que surge na abordagem subjetiva e o de entender o que e e
medir o grau de crenca de um agente. Para Ramsey o grau de crenca e um fenomeno
psicologico que poderia ate ser medido com um aparelho:
[...] it is, I suppose, conceivable that degrees of belief could be measured by a
psychogalvanometer or some such instrument [...] (Ram31)
8Traducao nossa de “First the collective - then the probability” (VM57).
25
Porem, na falta de tal tecnologia, a proposta dos teoricos em questao foi medir o
grau de crenca de um agente levando-o a fazer uma aposta. Deste modo, um oponente9
que fosse medir tal grandeza sobre um evento E deveria seguir o seguinte procedimento:
convencer o agente a participar de uma aposta na qual ele deve escolher um numero
q ∈ [0, 1], chamado de quociente de aposta, e, entao, tal oponente revela uma recompensa
R ∈ R (note que este valor pode ser negativo). O valor que o agente paga para apostar e
de qR e, se o evento E verificar ser o caso, o agente recebe R. E assumido tambem que o
oponente proponha um valor |R| que seja pequeno em relacao as posses do agente.
E importante que o agente nao saiba de antemao se R e positivo ou negativo para
que o quociente de aposta escolhido reflita realmente o grau de crenca que ele tem no
evento E. Se ele soubesse que R > 0, seria vantajoso escolher um valor pequeno para q e
vice versa. Por outro lado, sem esta informacao, nao existe uma boa estrategia alem de
seguir o instinto. Nesta aposta, o papel do agente e mais evitar uma grande perda que
vislumbrar um grande ganho.
Vejamos, na tabela a seguir, alguns exemplos de valores para q e R na aposta de um
evento E, juntamente com o valor ganho pelo agente nos casos em que E for verdadeiro
(coluna E) e em que E for falso (coluna ¬E). O ganho, no caso de acontecer o evento E,
e dado por R− qR e, no caso de se verificar o evento ¬E, por −qR.
q R qR E ¬E0 100 0 100 00 −100 0 −100 0
0, 2 100 20 80 −200, 2 −100 −20 −80 200, 5 100 50 50 −500, 5 −100 −50 −50 500, 8 100 80 20 −800, 8 −100 −80 −20 80
1 100 100 0 −1001 −100 −100 0 100
Seguimos neste texto a abordagem dos primeiros trabalhos de De Finetti, em que
as apostas sao monetarias. Ramsey segue por outro caminho, criando uma teoria da
utilidade. O proprio De Finetti acaba abandonando em seus ultimos trabalhos as apostas
monetarias, mas sua primeira abordagem continua sendo muito aceita na literatura.
E, entao, o quociente de aposta de um agente para um evento E e justamente a
probabilidade P (E) deste evento, relembrando que as probabilidades, aqui, podem variar
9Em (Gil00), Gillies fala de um psicologo ao inves de um oponente, seguindo a linha de que o grau decrenca e um fenomeno psicologico que, para Ramsey poderia ser medido. Preferimos o termo oponente,pois a aposta poderia ser proposta por qualquer um com interesse em ganhar do agente.
26
de agente para agente e, ate mesmo para um mesmo agente, pode variar com o tempo.
Uma objecao que pode ser feita contra esta maneira de mensurar os graus de crenca
e que o quociente medido atraves de apostas e, no maximo, uma estimativa aproximada
e nao um valor numerico exato. Para De Finetti, esta aproximacao nao e um problema e
ate tem a virtude de facilitar os calculos, desde que nao esquecamos que e uma idealizacao
da medida e a teoria matematica trabalhara na pratica, assim, com aproximacoes.
[...] if you want to apply mathematics, you must act as though the measured
magnitudes have precise values. This fiction is very fruitful, as everybody
knows; the fact that it is only a fiction does not diminish its value as long
as we bear in mind that the precision of the result will be what it will be.
[...] To go, with the valid help of mathematics, from approximate premises to
approximate conclusions, I must go by way of an exact algorithm, even though
I consider it an artifice. (DF89)
Para definir probabilidades condicionais na interpretacao subjetiva usamos o conceito
de quociente de apostas condicional : para um evento E, dado um evento F , e o quociente
de aposta que o agente daria para o evento E, sendo que a aposta seria cancelada se o
evento F nao se verificasse. Se F nao se verifica, o valor pago pelo agente e a recompensa
paga pelo oponente sao devolvidos. Este quociente e a probabilidade condicional P (E|F ).
Resolvido o problema de medir a probabilidade subjetiva como um grau de crenca,
surge outra questao de grande importancia: nao e imediato que as probabilidades de um
agente satisfazem os axiomas de Kolmogorov. Na verdade, nem e de se esperar que um
agente tenha quocientes de aposta tao precisos que satisfacam a teoria matematica. E daı
chegamos ao surpreendente Teorema do Aposta holandesa.
Para tal, vamos introduzir a ideia de coerencia: quando um agente aposta em uma
serie de eventos E1, E2, . . . , En, seus quocientes de aposta sao ditos coerentes se, e somente
se, nao existem respectivas recompensas R1, R2, . . . , Rn tais que o oponente sempre ganha
a aposta. Se existem tais recompensas, e dito que o oponente tem um Aposta holandesa10
contra o agente. E razoavel esperar que nenhum agente deixe de ser coerente em suas
apostas. Agora, podemos enunciar o resultado prometido.
Teorema 1.4.1 (Aposta holandesa). Um conjunto de quocientes de aposta e coerente se,
e somente se, eles satisfazem os axiomas de Kolmogorov para o caso finito.
10Traducao nossa da expressao em ingles Dutch book.
27
Este resultado11, demonstrado em (Gil00, 60), deixa patente a validade da inter-
pretacao subjetiva da teoria matematica das probabilidades. No entanto, algumas ob-
servacoes devem ser feitas. A primeira e que De Finetti nao usa exatamente a axiomatica
de Kolmogorov, mas, sim, uma versao dela que utiliza a definicao de funcao de probabi-
lidade sobre a linguagem proposicional classica ao inves de uma algebra. Introduziremos
esta outra versao da axiomatizacao na Secao 2.2.
A outra observacao e o fato de a interpretacao subjetiva nao satisfazer o caso infinito
da teoria de Kolmogorov. Porem, diferente de Von Mises, De Finetti nao ve isto como
um problema e nem tenta contorna-lo. Para ele, o caso infinito e so uma questao de
conveniencia matematica, mas que nao se justifica em seu conceito de probabilidade.
Its success owes much to the mathematical convenience of making the calculus
of probability merely a translation of modern measure theory. [...] No-one has
given a real justification of countable additivity (other than just taking it as
a ‘natural extension’ of finite additivity). (DF74)
Para finalizar, vejamos, na tabela abaixo, um exemplo de conjunto nao-coerente de
quocientes de aposta.
Eventos q R qR R− qRA ∧ ¬B ∧ ¬C 0, 5 10 5 5¬A ∧B ∧ ¬C 0, 3 10 3 7¬A ∧ ¬B ∧ C 0, 3 10 3 7
Deve-se notar que somente uma das sentencas que representam eventos acima pode ser
verdadeira e, entao, o valor maximo que o agente pode ganhar neste conjunto de quocientes
e 7. Por outro lado, com as recompensas dadas, todo o conjunto de quocientes tem o
preco de 11. Neste caso, o oponente tem um Aposta holandesa contra o agente e ganha
as apostas em qualquer situacao. Como declara o Teorema do Aposta holandesa, este
conjunto de quocientes nao respeita os axiomas de Kolmogorov, como pode ser verificado
a partir das observacoes sobre descricoes de estado que veremos na Secao 2.4.
1.5 A Probabilidade Logica, a questao da inducao e
as logicas indutivas
Nesta secao, trataremos de uma interpretacao um pouco diferente, para a qual a
probabilidade condicional tem um papel de maior destaque do que a probabilidade de um
11Um dos sentidos da implicacao do Teorema do Aposta holandesa, o que diz que se os axiomas deKolmogorov sao respeitados, o conjunto de quocientes de aposta e coerente (nao ha Aposta holandesa),foi demonstrado por De Finetti em (DF74). O outro sentido da implicacao, mais sutil, foi provado porKemeny em (Kem55).
28
unico evento, diferente das interpretacoes que vimos ate agora.
A interpretacao logica12, assim como a interpretacao classica, relaciona probabilidade
com o leque de possibilidades do que se analisa. Mas, diferente dela, nao assume ausencia
nem simetria de evidencias, admitindo que as possibilidades possam ter pesos diferentes.
Desse modo, a probabilidade de uma hipotese H e medida levando-se em conta a evidencia
E que se tem, fazendo uso da ideia de probabilidade condicional.
Uma probabilidade sera entendida como o grau de confirmacao que uma evidencia
E da a uma hipotese H. Esta interpretacao culminara em uma generalizacao do con-
ceito de implicacao logica e determinara uma estrutura para o raciocınio indutivo. No
momento, vamos nos ater a exposicao da interpretacao logica e mais tarde voltaremos a
estas questoes.
Frisamos que nesta secao apresentamos a concepcao contemporanea da probabilidade
logica, mas as ligacoes entre logica e probabilidades ja aparece em outros autores, como
Leibniz e Boole, conforme comentado na Secao 1.1.
A interpretacao logica de probabilidade no sentido contemporaneo comecou a ser de-
senvolvida nas primeiras decadas do seculo XX, principalmente em Cambridge, por Key-
nes (Key21) e Jeffreys (Jef39). Na decada de 1950, Carnap tomou partido desta linha
e ofereceu uma formulacao sistematica (Car50) para a teoria. Nossa referencia para a
formulacao de Carnap, estudada a seguir, e (Haj12).
Carnap, assim como De Finetti, define suas probabilidades sobre uma linguagem for-
mal. Porem, nao sobre a linguagem proposicional, mas sobre uma linguagem de primeira
ordem13 com uma quantidade finita de sımbolos de predicados monadicos e uma quanti-
dade enumeravel de constantes individuais.
Nesta linguagem, de acordo com seu poder de expressao, podemos descrever comple-
tamente uma constante por uma conjuncao de todos os sımbolos de predicado, cada um
destes podendo estar negado ou nao, aplicados sobre esta constante. E, entao, chamamos
de descricao de estado uma conjuncao de formulas deste tipo, que descreve completamente
cada uma delas, para todas as constantes da linguagem.
Utilizemos, como exemplo, a linguagem com um unico sımbolo de predicado monadico
F e com as constantes a, b e c. Nesta linguagem, cada constante e descrita completamente
por formulas do tipo Fa, ¬Fa, ¬Fb, Fc, etc. E as descricoes de estado que levam em
consideracao todas as constantes sao:
12As expressoes interpretacao logica e probabilidade logica, no tıtulo da secao, sao traducoes nossas delogical interpretation e logical probability, que aparecem em (Haj12).
13Sobre linguagens e logica de primeira ordem, recomendamos (Men64) e (Sho01).
29
1. Fa ∧ Fb ∧ Fc;
2. ¬Fa ∧ Fb ∧ Fc;
3. ¬Fa ∧ ¬Fb ∧ Fc;
4. ¬Fa ∧ ¬Fb ∧ ¬Fc;
5. Fa ∧ ¬Fb ∧ ¬Fc;
6. Fa ∧ Fb ∧ ¬Fc;
7. Fa ∧ ¬Fb ∧ Fc;
8. ¬Fa ∧ Fb ∧ ¬Fc.
Carnap, entao, associa probabilidades a cada uma destas descricoes de estado atraves
de uma funcao m, que ele chama de medida de probabilidade. A medida de probabilidade
pode ser estendida para qualquer formula da linguagem que seja composta pelas formulas
atomicas que constituem as descricoes de estado sobre as quais a medida foi definida.
Abusando da notacao, tambem chamaremos a extensao de m.
O conceito de medida de probabilidade e analogo14 ao de distribuicao de probabilidade
que introduziremos no Capıtulo 2, em que tratamos da questao da extensao para as
outras formulas. E importante observar que, tanto a medida m, quanto sua extensao,
satisfazem a versao para linguagem formal dos axiomas de Kolmogorov para o caso finito.
Portanto, com o mapeamento que veremos na Secao 2.3, a interpretacao logica oferece
uma interpretacao de uma instancia da teoria de Kolmogorov.
Agora, Carnap pode definir a funcao de confirmacao de uma hipotese H dada uma
evidencia E, que denotaremos por c(H,E) utilizando a versao para linguagem formal da
definicao de probabilidade condicional:
c(H,E) =m(H ∧ E)
m(E).
Chegamos a um ponto crucial da teoria de Carnap. Apesar de existirem varias
possıveis medidas m, ele advoga em favor de uma especıfica, denotada por m∗. Vere-
mos como defini-la e, depois, por que ela e escolhida por Carnap.
Primeiro, vamos chamar de descricao de estrutura os conjuntos maximais de descricoes
de estado de nossa linguagem nos quais cada descricao de estado pode ser obtida de uma
outra deste conjunto por uma permutacao das constantes. Utilizando a numeracao do
exemplo que estamos seguindo para nos referir as descricoes de estado, temos as descricoes
de estrutura:
• 1 - tudo satisfaz F ;
14As medidas de probabilidade sao definidas sobre uma linguagem de primeira ordem enquanto asdistribuicoes sao definidas sobre a linguagem proposicional. Para fazer a analogia, basta entender cadaformula atomica fechada de primeira ordem (e.g., Fa) como uma formula atomica proposicional (e.g.,A), de modo que para formulas atomicas de primeira ordem diferentes devem ser associadas formulasatomicas proposicionais diferentes. Assim, podemos, por exemplo, associar a Fa, Fb e Fc as formulas A,B, e C, respectivamente.
30
• 2, 6, 7 - um ¬F e dois F ;
• 3, 5, 8 - dois ¬F e um F ;
• 4 - tudo satisfaz ¬F .
E, entao, a medida m∗ e definida do seguinte modo: seja p o valor de 1 dividido pela
quantidade de descricoes de estrutura (no nosso exemplo, p = 14). Assim, a medida m∗ de
uma descricao de estado e o valor de p dividido pela quantidade de elementos da descricao
de estrutura a qual esta descricao de estado pertence. Dessa forma, no exemplo:
• m∗(1) = m∗(4) = p1
= 14;
• m∗(2) = m∗(3) = m∗(5) = m∗(6) = m∗(7) = m∗(8) = p3
= 112
.
Note que a medida m∗ favorece as descricoes de estado mais homogeneas. Por exemplo,
a descricao de estado Fa∧Fb∧Fc, em que todas as constantes satisfazem a propriedade F ,
tem uma medida maior do que as descricoes de estado menos homogeneas (em que algumas
constantes possuem a propriedade e outras nao). O mesmo ocorre com ¬Fa∧¬Fb∧¬Fc.Antes de analisar os motivos que levaram Carnap a eleger a medida m∗, vamos observar
que nesta interpretacao logica, a probabilidade da hipotese H e unicamente determinada
pela evidencia E por qualquer agente racional, o que exclui esta teoria da classificacao
subjetiva. Alem disso, a probabilidade aqui nao e medida atraves de experiencias e,
portanto, nao e uma caracterıstica dos fenomenos, nao e objetiva. Da mesma forma que
a probabilidade classica, a probabilidade logica e uma medida de incerteza baseada em
evidencias.
Vejamos, entao, o que faz de m∗ uma medida especial. Ela e uma medida que faz com
que a funcao de confirmacao c∗ que ela induz leve em consideracao o aprendizado com a
experiencia. No nosso exemplo, temos que a probabilidade15 a priori de Fa e m∗(Fa) = 12.
Agora, se soubermos que Fb e o caso, intuitivamente, temos uma evidencia que corrobora
com a hipotese Fa e o grau de confirmacao e, de fato, maior: c∗(Fa, Fb) = 23. Alem disso,
se soubermos que Fc tambem e o caso, temos ainda que c∗(Fa, Fb ∧ Fc) = 34.
Uma crıtica que se faz a abordagem de Carnap e que m∗ nao e a unica medida que faz
com que o grau de confirmacao aprenda com a experiencia, mas varias outras medidas
levam a funcoes de confirmacao com esta caracterıstica. No entanto, m∗ parece ser a mais
simples e natural. Esta caracterıstica de m∗ e justamente o que leva a interpretacao logica
a generalizar o conceito de implicacao logica e a tratar a inducao.
15Como ja dissemos, no Capıtulo 2 abordamos a questao da extensao da medida de probabilidade e,portanto, dos calculos das probabilidades que usamos nos exemplos.
31
A inducao e um modo de inferencia largamente usado no dia-a-dia e nas ciencias. Um
tıpico exemplo de inducao e o raciocınio que toma como premissas: “O primeiro cisne
que vi e branco”, “O segundo cisne que vi e branco”, . . . , “O milesimo cisne que vi e
branco” e, disso, infere: “Todos os cisnes sao brancos”. Esta inferencia, apesar de parecer
razoavel, nao e valida na logica classica e a questao que aparece e a de justificar este tipo
de raciocınio.
Para D. Hume (1711-1776), o conhecido filosofo cetico escoces, este raciocınio e in-
justificavel e nao passa de uma ilusao irracional (Hum88). N. C. A. da Costa coloca o
problema.
O problema central de inducao, dentro de nossa posicao, consiste em se en-
contrar alguma forma de justificacao de todos os tipos de inducao correta,
porquanto todos eles se utilizam ou podem ser utilizados em ciencia. (dC93b)
Varias foram as tentativas de justificar a inducao e N. C. A. da Costa, apos sentenciar
que, ate aquele momento, “Todas as tentativas de solucao do problema de se justificar a
inferencia indutiva falharam” (dC93b), propoe algumas justificativas (dC93b) que admite,
tambem, serem limitadas.
No entanto, o simples abandono do raciocınio indutivo e um tanto problematico devido
a sua utilidade. Neste caso, ha a necessidade da investigacao da estrutura da inducao
sendo este o objetivo das logicas indutivas, sistemas que fazem uso das probabilidades.
Como a logica dedutiva nao precisa legitimar a deducao para entao estuda-la,
o mesmo ocorrera com a logica indutiva e a operacao de inducao. (dC93b)
Nao e nosso objetivo aqui aprofundar sobre a questao da inducao, mas observar que
a interpretacao de Carnap das probabilidades tinha o objetivo de demarcar criterios para
este tipo de inferencia, como fica claro com o fato da funcao de confirmacao c∗ aprender
com a experiencia. E assim, o conceito de implicacao logica e generalizado ao entendermos
que c∗(H,E) determina um grau de implicacao da evidencia E para a hipotese H.
O proprio N. C. A. da Costa esboca um sistema de logica indutiva baseado no que
ele chama de teoria pragmatica da probabilidade, que seria uma interpretacao das proba-
bilidades combinando aspectos das interpretacoes subjetivas e das interpretacoes logicas.
Em suas palavras, “[a probabilidade pragmatica] expressa nosso grau de confianca na con-
veniencia e oportunidade de se admitir uma proposicao como hipotese, com a finalidade
de ser testada e criticada” (dC93b).
Para finalizar, lembramos que o principal objeto de estudo deste trabalho e uma
semantica probabilıstica, que levara as definicoes de algumas relacoes de consequencia
32
na linguagem proposicional e, por assim dizer, de algumas logicas probabilısticas. Reco-
nhecemos que podem haver relacoes entre os sistemas que estudamos e os sistemas de
logica indutiva. Porem, nossa preocupacao nao e a argumentacao indutiva, ao contrario,
entendemos que o tipo de inferencia que tratamos esta intimamente ligado com a in-
ferencia dedutiva. Mais especificamente, com a questao de tratar a deducao em cenarios
em que prevalece a incerteza das informacoes (premissas), como tentamos explicitar a
partir do proximo capıtulo.
1.6 A Probabilidade Propensista
Nesta ultima secao, voltamos a expor uma interpretacao objetiva da Teoria de Proba-
bilidades. A interpretacao propensista surge com o filosofo da ciencia K. R. Popper com
objetivo de tratar o problema do caso unico enfrentado pelas interpretacoes objetivas,
como comentado na Secao 1.3.
A primeira interpretacao defendida por Popper, em (Pop35), foi uma versao fre-
quentista abandonada posteriormente em favor de sua interpretacao propensista. Mas
ja nesta primeira empreitada, Popper deixa explıcita sua preocupacao em propor uma
interpretacao objetiva que trate de casos unicos, diferente da interpretacao de Von Mises,
por necessidade da fısica moderna.
Ideas involving the theory of probability play a decisive part in modern physics.
Yet we still lack a satisfactory, consistent definition of probability; or, what
amounts to much the same, we still lack a satisfactory axiomatic system for
the calculus of probability.
(Pop59a, traducao para o ingles de (Pop35))
My hope is that these investigations will help to relieve the present unsatis-
factory situation in which physicists make much use of probabilities without
being able to say, consistently, what they mean by ‘probability’. (Pop59a)
Ha uma classe extensa e difusa de propostas propensistas de interpretacoes, porem
vamos nos ater a proposta de Popper, que tambem sofreu mudancas de acordo com o
amadurecimento de suas ideias. Popper introduz a interpretacao propensista em (Pop57)
e a desenvolve em escritos sequentes (Pop59b; Pop83; Pop90).
Para resolver a questao da probabilidade objetiva do caso unico, Popper faz uma
“pequena” mudanca, podendo ate ser entendida como uma restricao, no papel que o
conceito de coletivo de Von Mises desempenha na definicao das probabilidades. Mas
33
antes de introduzir a ideia de propensao, vejamos um exemplo de coletivo em que a teoria
de Von Mises descarta a probabilidade do caso unico. Imagine um coletivo formado por
homens brasileiros. A probabilidade do atributo “morrer antes dos 41 anos” pode ser
aproximada pela frequencia relativa deste atributo em relacao ao coletivo estabelecido.
Porem, a probabilidade de um certo homem em particular nesta sequencia viver mais de
41 anos nao pode ser calculada.
We can say nothing about the probability of death of an individual, even if
we know his condition of life and health in detail. The phrase ‘probability of
death’, when it refers to a single person has no meaning at all for us. This
is one of the most important consequences of our definition of probability.
(VM57)
Popper chega a sugerir que esta probabilidade e a propria frequencia relativa do atri-
buto no coletivo, mas ele mesmo, mais tarde, contra-argumenta esta tese (Pop57; Pop59b).
Estas investigacoes levam Popper a associar valores de probabilidades partindo, ao inves
de coletivos, de condicoes geradoras de experimentos repetidos.
All this means that the frequency theorist is forced to introduce a modifi-
cation of his theory - apparently a very slight one. He will now say that
an admissible sequence of events (a reference sequence, a ‘collective’) must
always be a sequence of repeated experiments. Or more generally, he will say
that admissible sequences must be either virtual or actual sequences which are
characterized by a set of generating conditions - by a set of conditions whose
repeated realisation produces the elements of the sequences. (Pop59b)
E, entao, em sua primeira formulacao da interpretacao propensista, Popper asserta que
as condicoes geradoras sao dotadas de uma tendencia, uma disposicao, uma propensao
a gerar sequencias cujas frequencias relativas sao probabilidades se o experimento for
repetido segundo estas condicoes.
[...] we have to visualise the conditions as endowed with a tendency or dis-
position, or propensity, to produce sequences whose frequencies are equal to
the probabilities; which is precisely what the propensity interpretation asserts.
(Pop59b)
Com a visao de Popper nao e mais necessario, para falar de probabilidades objeti-
vamente, que um experimento seja repetido varias vezes. Mas e possıvel, por exemplo,
34
postular probabilidades sobre condicoes geradoras que sejam realizadas, de fato, uma
unica vez.
O chamado problema da classe de referencia, abordado por A. J. Ayer em (Aye63),
afeta esta interpretacao. Ao estabelecer probabilidades a partir de condicoes geradoras,
nao relacionamos valores de probabilidade a um evento em si, mas as condicoes geradoras
de um experimento das quais o experimento e somente uma instancia.
Desta forma, ao tentar estabelecer a probabilidade de um homem particular morrer
antes de completar 41 anos, temos o problema de definir as condicoes geradoras que
definem este homem particular como: “ser homem”, ou “ser homem brasileiro” ou, mais
particularmente, “ser homem brasileiro que fuma dois macos de cigarro diariamente”.
Conforme Popper desenvolve sua interpretacao propensista, ele muda o significado de
propensao como a propriedade de condicoes geradoras a gerar frequencias relativas para
a propriedade de uma situacao fısica em um determinado momento.
[...] propensities in physics are properties of the whole physical situation and
sometimes of the particular way in which a situation changes. (Pop90)
D. W. Miller, que tambem desenvolve este posicionamento tardio de Popper (Mil94;
Mil96), coloca sobre a transicao:
In the propensity interpretation, the probability of an outcome is not a mea-
sure of any frequency, but (as will be explained) a measure of the inclination
of the current state of affairs to realize that outcome. (Mil94)
Como Gillies critica (Gil00, 127), nesta nova versao propensista nao e possıvel testar
uma associacao de propensao a um evento devido o carater unico e nao repetıvel de um
estado fısico, diferente da primeira versao em que a propensao e relacionada as frequencias
relativas. Porem, o proprio Miller admite esta limitacao.
The propensity interpretation of probability is inescapably metaphysical, not
only because many propensities are postulated that are not open to empirical
evaluation [...] (Mil96)
Diferente da maioria dos teoricos vistos neste capıtulo, Popper nao se preocupa em
que sua interpretacao valide o sistema de Kolmogorov. Pelo, contrario, Popper axioma-
tizou varios calculos de probabilidade em seu trabalho. Miller destaca em (Mil) algumas
axiomaticas alternativas a de Kolmogorov para a Teoria de Probabilidades como outras
35
das contribuicoes de Popper no estudo das probabilidades. Alguns destes sistemas jun-
tamente com outros propostos por Popper e Miller em conjunto, estao sumarizados em
(Mil04).
E interessante notar, baseado nos sistemas propostos por Popper, sua preferencia
em tomar como termo primitivo probabilidades condicionais ao inves de probabilidades
absolutas. Tambem e interessante Popper entender que um sistema axiomatico deve ser
satisfeito por todas as interpretacoes propostas. Por isto, em (Pop59b), ele defende que
em um desenvolvimento formal, nao se deve assumir nada sobre a natureza dos objetos aos
quais sao associados valores de probabilidades. Neste contexto, Popper critica o calculo
de Kolmogorov por assumir que estes objetos sejam conjuntos.
Finalizamos nossa breve introducao a Teoria de Probabilidades e as suas principais
interpretacoes. No proximo capıtulo, seguimos introduzindo a semantica probabilıstica e
ja comecamos a investigar relacoes de consequencia, tanto classicas como probabilısticas,
a partir desta semantica.
Capıtulo 2
Semantica Probabilıstica ePropagacao de Incerteza
Neste capıtulo, vamos aprofundar a discussao a respeito do raciocınio sob incerteza.
Partindo da logica proposicional classica, da linguagem proposicional e da semantica bi-
valorada, definimos uma semantica probabilıstica e estudamos como as incertezas sobre
sentencas, representadas pelas probabilidades associadas a elas, se propagam das pre-
missas para a conclusao em uma inferencia. Para isto, vamos introduzir a Teoria de
Probabilidades partindo da linguagem proposicional.
2.1 Raciocınio sob incerteza
O Sistema de Logica Proposicional Classica (LPC) e uma poderosa ferramenta de
inferencia que tem a pretensao de descrever, segundo alguns, ou normatizar, segundo
outros, o raciocınio comum. Seu estudo pode ser motivado por diversas aplicacoes que
chegam ate aos campos mais praticos, como, por exemplo, o estudo de circuitos eletricos.
Porem, ha uma caracterıstica de LPC (e da logica classica como um todo) que pode nos
motivar a analisar sua linguagem de um ponto de vista probabilıstico: a idealizacao da
certeza absoluta sobre o valor de verdade das sentencas.
O cetico D. Hume chega ao ponto de nao aceitar a possibilidade de certeza racional
sobre questoes que ainda se apresentam no futuro (Hum88). Porem, assumindo uma
postura nao cetica quanto ao futuro, podemos aceitar algum grau de certeza sobre tais
fatos. Como, por exemplo, quando, com base nas experiencias de vida, olhamos de manha
para o ceu nublado e nos atentamos para uma sensıvel queda de temperatura e, por isso,
concluımos que existe uma grande chance de chover durante o dia. Mesmo que nao
tenhamos certeza absoluta sobre este fato, este alto grau de certeza pode fazer a diferenca
entre levarmos ou nao um guarda-chuvas ao sairmos de casa pela manha. E, mesmo que
nao chova, muitos vao concordar que esta decisao foi acertada. Afinal de contas, um
36
37
homem prevenido vale por dois!
E ja que parece que a analise das sentencas no dia-a-dia e feita atribuindo-lhes graus de
certeza, nos atentamos ao fato de que estas inferencias nao tem incidencia sobre sentencas
com valor de verdade bem determinado, mas sobre sentencas que possuem certo grau de
certeza. Assim, parece natural que concordemos que a seguinte inferencia e bastante
viavel e util, mesmo sem termos certeza sobre a verdade das premissas:
• Premissa 1. Se houver, pela manha, presenca de grandes nuvens tipo cumulus,
chovera durante o dia;
• Premissa 2. Ha presenca de grandes nuvens tipo cumulus esta manha;
• Conclusao. Chovera durante o dia.
Porem, apesar de natural e usual, ao abrirmos mao da idealizacao da logica classica
para podermos descrever os fenomenos do raciocınio do dia-a-dia, abrimos caminho para
que possıveis problemas aparecam, como podemos notar no Paradoxo da Loteria (Kyb61).
Imagine uma loteria justa com mil bilhetes numerados - 1, 2, 3, . . . , 1000 - em que um destes
bilhetes sera sorteado. As chances de uma proposicao do tipo “O bilhete de numero 484
nao sera sorteado” ser verdadeira e de 999 : 1 (ou 9991000
). Com chances tao grandes e
natural tomarmos esta sentenca por premissa em alguma inferencia. E entao, podemos
tomar por premissa qualquer sentenca do tipo:
An: “O bilhete de numero n nao sera sorteado.” n = 1, 2, 3, . . . , 1000)
Podemos, portanto, tomar todas estas mil sentencas (A1, . . . , A1000) como premissas e
inferirmos, por LPC, a sentenca
A1 ∧ · · · ∧ A1000,
que juntamente com o fato de que um dos bilhetes sera sorteado, gera uma contradicao.
Este paradoxo e creditado a assumirmos tres princıpios do raciocınio (Kva98):
• Existe um limiar da certeza a partir do qual e racional aceitar uma sentenca como
justificada;
• Um conjunto de sentencas aceitas como justificadas e dedutivamente fechado. Ou
seja, este conjunto contem todas as deducoes feitas a partir de sentencas dele;
• Nao e possıvel, para o mesmo indivıduo ao mesmo tempo, aceitar como justificadas
duas sentencas do tipo ϕ e ¬ϕ.
38
As varias tentativas de resolucao do Paradoxo da Loteria atacam pelo menos um destes
princıpios. Sobre o primeiro deles, conhecido como aceitacao racional, ja nos posicionamos
ha pouco que e completamente possıvel e ate necessario no dia-a-dia. As discussoes, no
entanto, vao alem disto e procuram sistematizar um processo que legitime a aceitacao,
geralmente com uso de probabilidades, como em (Wil96). Nesta discussao nao e incomum
o embate em favor de uma interpretacao especıfica de probabilidade, que melhor justifique
a aceitacao racional. Inclusive, o objetivo original de Kyburg ao apresentar o paradoxo era
propor uma teoria da aceitacao racional que rejeitasse o Bayesianismo (uma interpretacao
subjetiva das probabilidades) (Whe07).
A solucao do paradoxo que apresentaremos no decorrer deste capıtulo e proposta
por Adams em (Ada98) e, no nosso julgamento, ela nao se da por meio da discussao da
aceitacao racional. Entendemos que e racional aceitar uma sentenca com alto grau de cer-
teza (no caso, alta probabilidade) e, no aparato formal que desenvolveremos, sera possıvel
analisar como o grau de certeza que temos sobre premissas interfere nas inferencias.
Entendemos, tambem, que esta ferramenta independe da posicao filosofica adotada so-
bre probabilidades. Certamente, ha contextos em que uma interpretacao especıfica parece
mais natural que outra, porem, nao defendemos nenhuma interpretacao em particular. A
unica tese que assumimos e a de que podemos representar graus de certeza ou incerteza
atraves de probabilidades.
De acordo com a abordagem que exploraremos, no Paradoxo da Loteria, apesar de
darmos para cada premissa um grau de certeza muito grande, acumulamos muitas pre-
missas com um pequeno grau de incerteza, o que leva, como veremos, a nao podermos
ter certeza alguma sobre a conclusao. Entao, nos parece que a solucao de Adams esta
relacionada a uma negacao do segundo princıpio colocado de modo que, ao inves de sim-
plesmente aplicar a inferencia classica sobre as premissas justificadas, devemos estudar
como as probabilidades delas se propagam para a conclusao atraves da inferencia.
Com o intuito de modelar a incerteza, abandonamos os valores de verdade em favor das
probabilidades para as sentencas da linguagem de LPC e introduzimos o que chamamos
de semantica probabilıstica, como faremos nas proximas secoes.
2.2 Axiomatizando a Teoria de Probabilidades
Vimos, na Secao 1.1, que Kolmogorov axiomatizou a Teoria de Probabilidades por meio
de uma funcao definida sobre uma algebra de conjuntos. Os textos matematicos, seguindo
esta tradicao, geralmente fazem o mesmo. Porem, no contexto logico, e mais comum
definir a funcao de probabilidades sobre o conjunto das sentencas de uma linguagem
39
formal do que sobre uma algebra de eventos. Algumas justificativas para esta opcao sao
(Wil02):
• Como a logica opera sobre sentencas, parece natural que uma proposta de logica
probabilıstica para o raciocınio pratico faca o mesmo;
• Na teoria matematica de probabilidades, frequentemente probabilidades sao atribuı-
das a valores de variaveis aleatorias. E e mais natural pensar nestas expressoes como
sentencas da forma X = x do que como eventos da forma ω ∈ Ω : X(ω) = x.
Neste sentido, axiomatizaremos a Teoria de Probabilidades atraves de uma funcao
de probabilidade definida sobre as sentencas de LPC. Vamos considerar uma linguagem
proposicional, que chamaremos de L, com um conjunto enumeravel de sentencas atomicas
(denotadas por letras latinas maiusculas: A, B, C, . . . ) e sentencas moleculares formadas
pelos conectivos usuais: ¬, ∨, ∧, →, ↔. Utilizaremos letras gregas minusculas para
metavariaveis representando as sentencas de LPC: ϕ, ψ, . . .
Se ϕ for uma sentenca valida de LPC, denotaremos este fato por ` ϕ e, se ψ for
uma consequencia de ϕ1, . . . , ϕn em LPC, denotaremos este fato por ϕ1, . . . , ϕn ` ψ.
Esta notacao e geralmente usada para denotar a relacao de consequencia sintatica de
LPC, mas como esta relacao e equivalente a consequencia semantica e esta distincao nao
nos interessa, denotaremos desta maneira. No entanto, quando precisarmos justificar a
ocorrencia de uma relacao classica de consequencia, utilizaremos a semantica bivalorada.
Se tivermos ` ¬(ϕ ∧ ψ), diremos que ϕ e ψ sao logicamente incompatıveis. Estamos
assumindo o conhecimento previo de LPC (semantica bivalorada, relacao de consequencia
e alguns metateoremas) e mais sobre este assunto pode ser encontrado em (Men64). Assim,
finalmente podemos definir:
Definicao 2.2.1. Sejam as sentencas ϕ, ψ ∈ L. Uma funcao de probabilidade e uma
funcao P : L → R que satisfaz os axiomas:
K1 P (ϕ) ≥ 0;
K2 Se ` ϕ, entao P (ϕ) = 1;
K3 Se ϕ e ψ sao logicamente incompatıveis, entao P (ϕ ∨ ψ) = P (ϕ) + P (ψ).
Esta definicao deixa explıcito como e natural a relacao da Teoria de Probabilidades
com a logica classica, dado que o desenvolvimento da teoria, desta maneira, pressupoe
LPC a priori. Com esta abordagem podemos, tambem, adicionar um axioma que define
40
a funcao de probabilidade condicional: dadas duas sentencas ϕ, ψ ∈ L, de forma que
P (ψ) 6= 0, temos que
P (ϕ|ψ) =P (ϕ ∧ ψ)
P (ψ).
D. Lewis observa, em (Lew76), que varios autores propuseram a tese de que probabilida-
des de condicionais sao o mesmo que probabilidades condicionais, ou seja, para A,B ∈ L,
temos P (A|B) = P (B → A). Porem, Lewis mostra que, desta forma, ha uma trivia-
lizacao da probabilidade condicional, pois P (A|B) = P (A). Isso nao seria um problema
se A e B representassem eventos independentes1, mas, como esse fato ocorre para quais-
quer A,B ∈ L e para qualquer funcao de probabilidade P , as funcoes de probabilidade
determinariam somente eventos independentes e P (A|B) nao passaria de uma maneira
mais complicada de escrever P (A). Mais que isto, temos a contraintuitiva consequencia
P (A|B) = P (A|¬B). Este resultado e conhecido como a Trivializacao de Lewis.
Note, pretendemos utilizar as funcoes de probabilidade para definir uma semantica
para L e somente a nocao de probabilidades nao-condicionais basta para este intento.
Porem, a probabilidade condicional nao e abandonada, sua definicao e consequencia da
probabilidade sobre sentencas2.
Notamos, tambem, que a axiomatizacao dada nesta secao e finitamente aditiva. Usa-
mos esta abordagem aqui pois as sentencas de L sao sequencias finitas de sımbolos do
alfabeto considerado. Poderıamos definir uma linguagem L∞ com, alem das sentencas
de L, conjuncoes e disjuncoes (∧
e∨
) enumeraveis (Kar64) e, entao, substituir K3 pelo
axioma da aditividade enumeravel :
K3’ Se a famılia enumeravel de sentencas ϕi ⊂ L∞ e logicamente incompatıvel, no
sentido em que ϕi e ϕj sao logicamente incompatıveis para todo i, j ∈ N, entao
P (∨i ϕi) =
∑i P (ϕi).
Mesmo assim, prosseguiremos trabalhando com a versao finita porque, por L ser uma
linguagem formal mais intuitiva, parece se adequar mais ao raciocınio pratico. Williamson,
no entanto, argumenta que nao perdemos nenhuma informacao probabilıstica ao fazer esta
opcao, pois existe uma unica extensao de qualquer funcao de probabilidade P sobre Lpara L∞ (Wil02). Portanto, nao ha mais funcoes de probabilidade em L∞ do que na
linguagem que esta estende. (Veja Secao 1.1 para uma discussao sobre aditividades finita
e enumeravel.)
1Dois eventos A e B sao ditos independentes justamente quando P (A|B) = P (A).2Hailperin, em (Hai10), leva em conta o conceito de probabilidade condicional em uma semantica.
Para isto, ele estende a linguagem L com um novo conectivo binario para simbolizar o condicionalprobabilıstico e desenvolve um outro sistema de logica que ele chama de logica hipotetica (traducao nossade suppositional logic).
41
Com a funcao de probabilidade, modelamos a ideia de graus de certeza sobre as sen-
tencas e, no decorrer deste capıtulo, exploraremos as caracterısticas de semantica que
ela pode agregar a L. Veremos agora alguns exemplos de leis da probabilidade que sao
formalizadas neste sistema.
Teorema 2.2.1. Sejam as sentencas ϕ, ψ ∈ L e P uma funcao de probabilidade sobre L.
Segue que:
1. P (¬ϕ) = 1− P (ϕ);
2. 0 ≤ P (ϕ) ≤ 1;
3. Se ` ¬ϕ (ϕ e logicamente falsa), entao P (ϕ) = 0;
4. Se ` ϕ↔ ψ (ϕ e ψ sao logicamente equivalentes), entao P (ϕ) = P (ψ);
5. P (ϕ ∧ ¬ψ) = P (ϕ)− P (ϕ ∧ ψ);
6. P (ϕ) + P (ψ) = P (ϕ ∧ ψ) + P (ϕ ∨ ψ);
7. Se ` ϕ→ ψ (ϕ logicamente implica ψ), entao P (ϕ) ≤ P (ψ);
8. P (ϕ ∧ ψ) ≥ P (ϕ) + P (ψ)− 1.
Demonstracao. 1. Como ϕ e ¬ϕ sao logicamente incompatıveis, por K3 temos que
P (ϕ ∨ ¬ϕ) = P (ϕ) + P (¬ϕ). Combinando isto com ` ϕ ∨ ¬ϕ e K2, segue o
resultado.
2. Por K1, 0 ≤ P (ϕ). Pelo item 1, temos que P (¬ϕ) = 1 − P (ϕ) e, novamente por
K1, segue P (ϕ) ≤ 1.
3. Como ` ¬ϕ, por K2 temos que P (¬ϕ) = 1. Logo, pelo item 1, P (ϕ) = 1−P (¬ϕ) =
0.
4. Como ` ϕ↔ ψ, seguem ` ¬(ϕ∧¬ψ) e ` ϕ∨¬ψ. Logo, por K2 e K3, P (ϕ)+P (¬ψ) =
1 e, pelo item 1, P (ϕ) = P (ψ).
5. Como ` ¬[(ϕ ∧ ¬ψ) ∧ (ϕ ∧ ψ)] e ` ϕ↔ (ϕ ∧ ¬ψ) ∨ (ϕ ∧ ψ), por K3 e pelo item 4,
segue o resultado.
6. Como ` ϕ∨ψ ↔ (ϕ∧¬ψ)∨ (ϕ∧ψ)∨ (¬ϕ∧ψ), ` ¬[((ϕ∧¬ψ)∨ (ϕ∧ψ))∧ (¬ϕ∧ψ)]
e ` ¬[(ϕ∧¬ψ)∧ (ϕ∧ψ)], por K3 e pelo item 4, segue que P (ϕ∨ψ) = P (ϕ∧¬ψ) +
P (ϕ ∧ ψ) + P (¬ϕ ∧ ψ). Agora, pelo item 5, temos que P (ϕ ∨ ψ) = P (ϕ) − P (ϕ ∧ψ) + P (ϕ ∧ ψ) + P (ψ)− P (ϕ ∧ ψ) e daı segue o resultado.
42
7. Como ` ϕ → ψ e ` (ϕ → ψ) ↔ (¬ϕ ∨ ψ), por K2 e pelo item 4, temos que
P (¬ϕ ∨ ψ) = 1. Com isto, e pelo item 6, segue P (¬ϕ) + P (ψ) = P (¬ϕ ∧ ψ) + 1
que, pelo item 1, implica P (ϕ) + P (¬ϕ ∧ ψ) = P (ψ). Logo, por K1, P (ϕ) ≤ P (ψ).
8. Como ` (ϕ ∧ ¬ψ) ∨ (ϕ ∧ ψ)↔ ϕ e ` ¬[(ϕ ∧ ¬ψ) ∧ (ϕ ∧ ψ)], por K3 e pelo item 4,
temos que P (ϕ) = P (ϕ ∧ ¬ψ) + P (ϕ ∧ ψ). Por outro lado, como ` ϕ ∧ ¬ψ → ¬ψ,
pelo item 7, temos que P (ϕ ∧ ¬ψ) ≤ P (¬ψ). Combinando estes resultados com o
item 1, segue o resultado esperado.
Sempre que apresentado um sistema axiomatico, como o da Definicao 2.2.1, surge a
questao da existencia de um modelo para este sistema. Nossa demonstracao construtiva
da existencia de uma funcao de probabilidade precisara esperar ate a Secao 2.4.
2.3 Conjuntos versus sentencas
Na Secao 1.1 mencionamos a discussao de J. Bueno-Soler e W. Carnielli (BSC15)
sobre duas tradicoes que envolvem o estudo das probabilidades: uma que associa valores
de probabilidades a conjuntos e outra que o faz a sentencas.
Como a Teoria de Probabilidades mais aceita e estudada e aquela de Kolmogorov,
axiomatizada na Definicao 1.1.1, pretendemos utilizar este conceito com a finalidade de
desenvolver uma semantica para L. Portanto, vamos investigar como se relacionam a
axiomatica de Kolmogorov, que associa probabilidades a conjuntos, com a axiomatica
que apresentamos na Definicao 2.2.1, que associa probabilidades a sentencas. Assim,
esperamos deixar claro que estamos realmente aplicando as probabilidades tradicionais
da teoria matematica no estudo da logica.
Primeiro, denotando o conjunto das valoracoes classicas3 de LPC por V , vamos associar
a cada sentenca ϕ ∈ L um subconjunto de V , dado por
[[ϕ]] = v ∈ V | v(ϕ) = 1.
Assim, o conjunto [[A∨B → C]], por exemplo, e dado pelas valoracoes que se comportam
de uma das seguintes maneiras em A, B e C:
• v(A) = 1, v(B) = 1 e v(C) = 1;
• v(A) = 1, v(B) = 0 e v(C) = 1;
3Neste texto, utilizamos os numeros 0 e 1 para os valores de verdade classicos Verdadeiro e Falso.Logo, as valoracoes classicas serao funcoes do tipo v : L → 0, 1.
43
• v(A) = 0, v(B) = 1 e v(C) = 1;
• v(A) = 0, v(B) = 0 e v(C) = 1;
• v(A) = 0, v(B) = 0 e v(C) = 0.
Com esta associacao, podemos observar que conectivos logicos aplicados as sentencas se
traduzem em operacoes entre conjuntos.
Teorema 2.3.1. Sejam ϕ, ψ ∈ L. Entao,
1. [[ϕ ∨ ψ]] = [[ϕ]] ∪ [[ψ]];
2. [[ϕ ∧ ψ]] = [[ϕ]] ∩ [[ψ]];
3. [[¬ϕ]] = V − [[ϕ]].
Demonstracao. Faremos a demonstracao do item 1, as demais seguem o mesmo tipo de
argumento. Seja v ∈ [[ϕ ∨ ψ]]. Temos que v(ϕ ∨ ψ) = 1, ou seja, v(ϕ) = 1 ou v(ψ) = 1 e,
entao, segue que v ∈ [[ϕ]] ou v ∈ [[ψ]]. Logo, v ∈ [[ϕ]]∪ [[ψ]]. Seguindo a recıproca destas
implicacoes, se v ∈ [[ϕ]] ∪ [[ψ]], segue que v ∈ [[ϕ ∨ ψ]] e, portanto, temos o resultado.
Alem disso, definindo o conjunto
A = [[ϕ]] ∈ ℘(V)4 | ϕ ∈ L
e dada uma funcao de probabilidade sobre sentencas PL : L → R, como na Definicao
2.2.1, podemos traduzi-la em uma funcao de probabilidade sobre conjuntos PA : A → R,
como na Definicao 1.1.1, por
PA([[ϕ]]) = PL(ϕ), para qualquer ϕ ∈ L.
Os proximos resultados tratam de mostrar que PA esta bem definida.
Teorema 2.3.2. O conjunto A e uma algebra de subconjuntos de V.
Demonstracao. A 6= ∅, pois, para qualquer sentenca ϕ ∈ L, [[ϕ]] ∈ A. Dado um conjunto
[[ϕ]] ∈ A, associado a sentenca ϕ ∈ L, temos, pelo item 3 do Teorema 2.3.1, que [[¬ϕ]] =
V − [[ϕ]]. Como [[¬ϕ]] ∈ A, A e fechado por complementos em relacao a V . Finalmente,
dados os conjuntos [[ϕ]], [[ψ]] ∈ A, associados as sentencas ϕ, ψ ∈ L, segue, pelo item 1
do Teorema 2.3.1, que [[ϕ]] ∪ [[ψ]] = [[ϕ ∨ ψ]]. Portanto, como [[ϕ ∨ ψ]] ∈ A, temos que
A e fechado por unioes finitas e e uma algebra de subconjuntos de V .
4℘(V) denota o conjunto das partes de V.
44
Teorema 2.3.3. PA e uma funcao de probabilidade ao modo da Definicao 1.1.1.
Demonstracao. Vamos mostrar que PA satisfaz cada axioma K1-K3 da Definicao 1.1.1.
K1 Dado um conjunto [[ϕ]] ∈ A associado a uma sentenca ϕ ∈ L, temos que PA([[ϕ]]) =
PL(ϕ) ≥ 0, pelo axioma K1 da Definicao 2.2.1.
K2 Seja ϕ ∈ L de forma que ` ϕ. Logo, para qualquer v ∈ V , v(ϕ) = 1 e V = [[ϕ]].
Assim, PA(V) = PA([[ϕ]]) = PL(ϕ) = 1, pelo axioma K2 da Definicao 2.2.1.
K3 Dados os conjuntos [[ϕ]], [[ψ]] ∈ A associados as sentencas ϕ, ψ ∈ L, de forma que
[[ϕ]]∩ [[ψ]] = ∅, temos que nao existe uma valoracao v ∈ V tal que v(ϕ) = v(ψ) = 1.
Portanto, temos ` ¬(ϕ ∧ ψ) e segue, pelo item 1 do Teorema 2.3.1 e pelo axioma
K3 da Definicao 2.2.1, que PA([[ϕ]] ∪ [[ψ]]) = PA([[ϕ ∨ ψ]]) = PL(ϕ ∨ ψ) = PL(ϕ) +
PL(ψ) = PA([[ϕ]]) + PA([[ψ]]).
O resultado anterior nos mostra que, na algebra de conjuntos A, uma sentenca valida
de LPC e associada ao conjunto V e que duas sentencas ϕ, ψ ∈ L incompatıveis se tornam
dois conjuntos disjuntos [[ϕ]] ∩ [[ψ]] = ∅. Alem disso, a duas sentencas distintas pode ser
associado o mesmo conjunto, como no caso de a quaisquer sentencas validas ser associado
o conjunto V . Na verdade, a quaisquer sentencas logicamente equivalentes e associado o
mesmo conjunto. Assim, se ` ϕ↔ ψ, segue que [[ϕ]] = [[ψ]].
Verificamos, entao, que a versao sobre sentencas da Teoria de Probabilidades e analoga
a versao sobre conjuntos de acordo com a algebra de conjuntos A que definimos, ou seja,
e um caso particular de probabilidades sobre conjuntos. A partir de agora nos referiremos
a Teoria de Probabilidades como a teoria formulada pelo sistema axiomatico apresentado
na Definicao 2.2.1.
2.4 Semantica probabilıstica
Do ponto de vista logico, as probabilidades se assemelham muito as valoracoes que
formam a semantica bivalorada de LPC. Se, por um lado, uma valoracao e uma funcao
que relaciona cada sentenca de L a um elemento do conjunto 0, 1, por outro, a funcao de
probabilidade relaciona cada sentenca de L a um elemento do intervalo [0, 1], que possui
como extremidades justamente os valores de verdade da semantica bivalorada.
Entendendo as funcoes de probabilidade como generalizacoes das valoracoes, vamos
chama-las, no contexto logico, de valoracoes probabilısticas. Mais ainda, entendendo que
45
a abordagem semantica e aquela que parte de um modelo para uma linguagem (no nosso
caso, os modelos sao as valoracoes probabilısticas), comecamos aqui o estudo da semantica
probabilıstica, definida como o conjunto de todas as valoracoes probabilısticas.
Uma importante diferenca entre a semantica probabilıstica e a semantica bivalorada de
LPC e que nao e sempre possıvel calcular os valores de uma valoracao probabilıstica para
uma sentenca composta em funcao de seus valores para os componentes desta sentenca.
Por exemplo, para uma valoracao probabilıstica P , nao podemos calcular o valor de
P (ϕ∨ψ) somente conhecendo os valores de P (ϕ) e P (ψ). Adams (Ada98, 15) defende que
isto significa que probabilidades nao sao graus de verdade, como nas logicas multivaloradas
ou na logica fuzzy, nas quais o comportamento dos conectivos sao completamente definidos
por tabelas verdade (finitas ou infinitas).
Concordamos com esta defesa pois entendemos que e pressuposto que a sentenca pos-
sua, em geral, um valor de verdade desconhecido, sobre o qual pode ser que somente
tenhamos um grau de certeza, a sua probabilidade. Tambem aponta nesta direcao o fato
de as probabilidades associadas a algumas sentencas serem regidas por regras que depen-
dem da semantica bivalorada (esta, de valores de verdade), como os axiomas K2 e K3 da
Definicao 2.2.1.
No entanto, e possıvel calcular o valor de uma valoracao probabilıstica de qualquer
sentenca composta partindo dos valores para as descricoes de estado de suas sentencas
atomicas: as descricoes de estado de um conjunto A1, . . . , An de sentencas atomicas sao
todas as conjuncoes compostas por estas sentencas ou negacao delas. Somamos a esta
definicao as observacoes:
• Qualquer sentenca de L que nao seja uma negacao e equivalente a uma disjuncao
de descricoes de estado do conjunto de suas sentencas atomicas, sua forma normal
disjuntiva (FND);
• As descricoes de estado de um conjunto sao todas incompatıveis entre si5.
E assim, com aplicacoes sucessivas do axioma K3, e possıvel efetuar o calculo da
probabilidade de uma sentenca ϕ partindo das probabilidades das descricoes de estado
do conjunto das sentencas atomicas que compoem ϕ. Como exemplo, tome as seguintes
atribuicoes de probabilidades para as descricoes de estado do conjunto A,B,C, dadas
pela valoracao probabilıstica P :
5Os resultados sobre formas normais disjuntivas utilizados em todo este texto, inclusive como calculara FND de uma sentenca, sao explorados devidamente no Apendice A.
46
• P (A ∧B ∧ C) = 0, 1;
• P (¬A ∧B ∧ C) = 0, 3;
• P (¬A∧¬B∧C) = 0, 1;
• P (¬A ∧ ¬B ∧ ¬C) = 0;
• P (A∧¬B∧¬C) = 0, 2;
• P (A ∧B ∧ ¬C) = 0;
• P (A ∧ ¬B ∧ C) = 0, 2;
• P (¬A∧B∧¬C) = 0, 1.
Assim, podemos calcular a probabilidade da sentenca A ∨ B → C, que e equivalente
a (A ∧ B ∧ C) ∨ (¬A ∧ B ∧ C) ∨ (¬A ∧ ¬B ∧ C) ∨ (¬A ∧ ¬B ∧ ¬C) ∨ (A ∧ ¬B ∧ C) do
seguinte modo:
P (A ∨B → C) = P (A ∧B ∧ C) + P (¬A ∧B ∧ C)+
+P (¬A ∧ ¬B ∧ C) + P (¬A ∧ ¬B ∧ ¬C) + P (A ∧ ¬B ∧ C) = 0, 7.
As formas normais disjuntivas desempenham um importante papel no estudo das va-
loracoes probabilısticas, como podera ser visto em todo Capıtulo 3. A seguir, damos uma
demonstracao construtiva de existencia de uma valoracao probabilıstica (i.e., existencia
de modelo para a axiomatica da Definicao 2.2.1) que faz uso essencial das FNDs.
Teorema 2.4.1. Existe uma valoracao probabilıstica.
Demonstracao. Definimos a valoracao probabilıstica P0 : L → R pelas seguintes clausulas:
• P0(ϕ) = 0, se ϕ for uma sentenca atomica ou uma descricao de estados com ao
menos um literal que nao seja negado;
• P0(ϕ) = 1, se ϕ for um literal negado ou uma descricao de estados composta somente
por literais negados;
• P0(ϕ) = 0, se ϕ for uma contradicao;
• P0(ϕ) =∑
i P (di(ϕ)), em que di(ϕ) sao as descricoes de estado da FND canonica
equivalente a ϕ, se ϕ nao se encaixa nos casos anteriores.
Vamos agora mostrar que P0 satisfaz os axiomas K1-K3 da Definicao 2.2.1.
P0 e nao-negativa em qualquer caso de sua definicao. Em particular, para qualquer
descricao de estado e, no ultimo caso, para um sentenca ϕ ∈ L,
P0(ϕ) =∑i
P0(di(ϕ)) ≥ 0.
47
Se ` ϕ, pela construcao canonica, a FND de ϕ e formada por todas as descricoes de
estado do conjunto das sentencas atomicas que a compoem. Logo, pelas duas primeiras
clausulas da definicao de P0, P0(ϕ) = 1.
Finalmente, dadas as sentencas ϕ, ψ ∈ L, suponha que as sentencas atomicas que
compoem ψ e nao compoem ϕ sejam as do conjunto A1, . . . , An. Pelo Teorema A.2.3,
di(ϕ) e (di(ϕ) ∧ A1) ∨ (di(ϕ) ∧ ¬A1) sao equivalentes. Alem disso:
• Se di(ϕ) possui ao menos um literal nao negado, P0(di(ϕ)) = P0(di(ϕ) ∧ A1) =
P0(di(ϕ) ∧ ¬A1) = 0;
• Se di(ϕ) e composto somente por literais negados, P0(di(ϕ)) = P0(di(ϕ)∧¬A1) = 1
e P0(di(ϕ) ∧ A1) = 0.
Em ambos os casos, P0(di(ϕ)) = P0(di(ϕ) ∧A1) + P0(di(ϕ) ∧ ¬A1). Continuando reitera-
damente este raciocınio em mais n− 1 passos, temos que:
di(ϕ) e∨±
di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)
sao equivalentes e
P0(di(ϕ)) =∑±
P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)).
Portanto,
ϕ e∨i
∨±
di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)
sao equivalentes e
P0(ϕ) =∑i
∑±
P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An)).
Por outro lado, supondo que as sentencas atomicas que compoem ϕ e nao compoe ψ sejam
as do conjunto B1, . . . , Bm, conseguimos resultados analogos para ψ e temos que
ϕ ∨ ψ e(∨
i
∨±
di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An))∨(∨
i
∨±
di(ψ) ∧ (±B1 ∧ · · · ∧ ±Bm))
sao equivalentes e, mais ainda, a FND acima e formada apenas pelas sentencas atomicas
que compoem ϕ∨ψ, alem de que, como ` ¬(ϕ∧ψ), no processo de construcao de cada uma
das FNDs, nao corremos o risco de repetir uma descricao de estado da FND resultante de
ϕ na FND resultante de ψ e vice versa. Logo, a FND acima e a FND canonica de ϕ ∨ ψ.
Portanto,
P0(ϕ ∨ ψ) =∑i
∑±
P0(di(ϕ) ∧ (±A1 ∧ · · · ∧ ±An))+
48
+∑i
∑±
P0(di(ψ) ∧ (±B1 ∧ · · · ∧ ±Bm)) = P0(ϕ) + P0(ψ).
Chamamos a funcao que atribui valores em [0, 1] para todas as descricoes de estado
de um conjunto finito α de sentencas atomicas, de modo que a soma destes valores seja
1, de distribuicao de probabilidade para este conjunto. A soma dos valores deve ser 1
pois queremos entende-los como probabilidades e, entao, esta restricao nos e imposta pela
combinacao do fato de a disjuncao de todas as descricoes de estado de um conjunto de
sentencas ser uma sentenca valida de LPC com o axioma K3.
A partir de uma distribuicao de probabilidade para um conjunto α de sentencas
atomicas, podemos calcular as probabilidades de todas as sentencas compostas por ele-
mentos de α. Trabalhar desta maneira, com probabilidades para um conjunto restrito de
sentencas definidas a partir de uma distribuicao de probabilidade, e possıvel na teoria que
desenvolveremos pois qualquer distribuicao de probabilidade pode ser estendida a uma
valoracao probabilıstica, como mostramos, mais tarde, no Teorema 3.4.1.
Na verdade, e interessante que possamos trabalhar com distribuicoes de probabilidade
pois, na pratica, muitas vezes estamos interessados somente em algumas sentencas em
particular e, entao, garantindo que as probabilidades associadas a estas sentencas sao
induzidas por uma distribuicao de probabilidades, garantimos que estamos trabalhando
coerentemente com uma valoracao probabilıstica. Para deixar claro que a validade de uma
inferencia depende somente de uma quantidade finita de sentencas, Hailperin (Hai84)
define uma nocao de valoracao probabilıstica mais restrita, que leva em consideracao
somente as sentencas com as quais esta preocupado.
Definicao 2.4.1. Sejam um conjunto de sentencas Φ = ϕ1, . . . , ϕN, um conjunto de
sentencas atomicas α = A1, . . . , An que inclua todas as sentencas necessarias para
compor as sentencas de Φ e um conjunto de numeros reais K = k1, . . . , k2n ⊂ [0, 1] tal
que a soma de seus elementos seja 1. Uma valoracao probabilıstica adequada a Φ e uma
funcao bijetiva PΦ entre o conjunto das descricoes de estado de α e K.
A funcao PΦ satisfaz as leis da probabilidade do sistema da Definicao 2.2.1 para as
sentencas nas quais ela esta definida, mas nao seguiremos por este caminho pois, alem
de dificultar as definicoes, deixando-as carregadas de detalhes, perdemos a naturalidade
com que a nocao de valoracao probabilıstica estende a nocao classica de valoracao. Alem
disso, como ja notamos, podemos trabalhar com distribuicoes de probabilidades para
conjuntos finitos de sentencas sem maiores preocupacoes, pois elas podem ser estendidas
para valoracoes probabilısticas.
49
Agora, com a semantica probabilıstica, podemos tentar comecar a entender como as
incertezas se propagam das premissas para a conclusao em uma inferencia. Para isto,
definimos uma primeira relacao de consequencia probabilıstica, que generaliza a relacao
de consequencia logica definida atraves da semantica bivalorada.
Definicao 2.4.2. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L. A relacao de consequencia
probabilıstica, denotada por
ϕ1, . . . , ϕn |=P ψ,
e definida da seguinte maneira: para toda valoracao probabilıstica P , tal que P (ϕ1) =
· · · = P (ϕn) = 1, temos que P (ψ) = 1.
Se temos que para toda valoracao probabilıstica P , P (ψ) = 1, dizemos que ψ e uma
sentenca probabilisticamente valida e escrevemos |=P ψ.
De posse das valoracoes probabilısticas e da relacao de consequencia probabilıstica,
temos os ingredientes necessarios para um primeiro sistema de logica probabilıstica, con-
cebido sobre a linguagem L. Veremos a seguir que LPC e equivalente ao sistema que
acabamos de definir ou, entao, que LPC e correto e completo em relacao a consequencia
probabilıstica.
Lema 2.4.1. Sejam ϕ1, . . . , ϕn ∈ L e P uma valoracao probabilıstica tal que P (ϕ1) =
· · · = P (ϕn) = 1. Entao, P (ϕ1 ∧ . . . ∧ ϕn) = 1.
Demonstracao. Para o caso n = 2, o resultado segue pelos itens 2 e 8 do Teorema 2.2.1.
Supondo que este resultado seja valido para o caso n e aplicando novamente o item 8 do
Teorema 2.2.1, temos que P (ϕ1 ∧ . . .∧ ϕn ∧ ϕn+1) ≥ P (ϕ1 ∧ . . .∧ ϕn) + P (ϕn+1)− 1 ≥ 1.
Portanto, o resultado segue do item 2 do Teorema 2.2.1.
Teorema 2.4.2 (Correcao). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn ` ψ, segue que
ϕ1, . . . , ϕn |=P ψ.
Demonstracao. Supondo que, para uma valoracao probabilıstica P , tenhamos P (ϕ1) =
· · · = P (ϕn) = 1, segue pelo lema anterior que P (ϕ1 ∧ . . . ∧ ϕn) = 1. Agora, como
ϕ1, . . . , ϕn ` ψ, segue pelo Teorema da Deducao (Men64), que ` ϕ1∧ . . .∧ϕn → ψ e, pelo
item 7 do Teorema 2.2.1, P (ψ) ≥ P (ϕ1 ∧ . . . ∧ ϕn). Combinando as duas desigualdades,
temos P (ψ) ≥ 1. Portanto, pelo item 2 do Teorema 2.2.1, P (ψ) = 1 e segue o resultado.
Lema 2.4.2. Toda valoracao da semantica bivalorada de LPC e tambem uma valoracao
probabilıstica.
50
Demonstracao. Sejam ϕ, ψ ∈ L e v uma valoracao da semantica bivalorada de LPC.
Temos que v(ϕ) ∈ 0, 1 e, entao v satisfaz K1. Se ` ϕ, temos que v(ϕ) = 1 e, entao, v
tambem satisfaz K2. Agora, se ` ¬(ϕ ∧ ψ), ha tres casos possıveis para a valoracao:
1. v(ϕ) = 1 e v(ψ) = 0;
2. v(ϕ) = 0 e v(ψ) = 1;
3. v(ϕ) = 0 e v(ψ) = 0.
Em todos os casos, P (ϕ ∨ ψ) = P (ϕ) + P (ψ) e, entao, v tambem satisfaz K3. Portanto,
v e uma valoracao probabilıstica.
Teorema 2.4.3 (Completude). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn |=P ψ, entao
ϕ1, . . . , ϕn ` ψ.
Demonstracao. Seja v uma valoracao da semantica bivalorada de LPC em que v(ϕ1) =
· · · = v(ϕn) = 1. Pelo lema anterior, podemos entender esta valoracao como uma va-
loracao probabilıstica e, entao, como ϕ1, . . . , ϕn |=P ψ, segue que v(ψ) = 1. Portanto,
temos o resultado.
Em (Voo99), ao usar a semantica probabilıstica para representar graus de crenca em
proposicoes, Voorbraak observa que seu modelo probabilıstico de representacao incorpora
naturalmente o modelo classico de conjunto de crencas. Um conjunto de crencas e um
conjunto dedutivamente fechado de sentencas compatıveis de L e um modelo probabilıstico
para L e o que chamamos neste trabalho de valoracao probabilıstica. Assim, a cada
conjunto de crencas K pode ser associada uma classe de modelos probabilısticos que dao
valor 1 para as sentencas de K, pelos Teoremas 2.4.2 e 2.4.3.
Analogamente a observacao de Voorbraak no contexto da revisao de crencas, o sistema
de logica probabilıstica proposto acima e equivalente a LPC, ou seja, a semantica proba-
bilıstica incorpora a logica classica. Desde que a relacao de consequencia probabilıstica
e definida visando a preservacao da certeza absoluta sobre a veracidade das sentencas, a
equivalencia dos sistemas quer dizer que a nossa certeza absoluta se preserva da mesma
maneira que a verdade se preserva em uma inferencia. Realmente, nao faria sentido, por
exemplo, tendo certeza da veracidade das sentencas A ∨ B e ¬A, nao ter certeza da ve-
racidade de B, que pode ser inferido das premissas. Do mesmo modo, nao faria sentido
a certeza absoluta de ϕ1 e ϕ2 nos levar a ter certeza tambem sobre ψ, mas ψ nao ser
verdadeira.
Identificamos o ato de associar uma probabilidade 1 para uma sentenca ϕ com o ato
de associar o valor de verdade Verdadeiro (ou 1) para esta sentenca ϕ. Assim, no que diz
51
respeito a propagacao de incerteza em uma inferencia, ja sabemos que se a incerteza sobre
as premissas for nula (valor de probabilidade 1), a incerteza sobre a conclusao tambem
sera nula (tera probabilidade 1).
Porem, este sistema de logica probabilıstica ainda e pouco informativo em relacao
a propagacao de incerteza, pois a relacao de consequencia probabilıstica leva em consi-
deracao somente a certeza absoluta, ao passo que a semantica probabilıstica oferece outras
possibilidades de graus de certeza. Na proxima secao estudaremos como outros valores
de probabilidade se propagam em uma inferencia.
Para concluir esta secao, cabe notar que neste texto nos atemos prioritariamente a uma
semantica probabilıstica para LPC, mas existem estudos sobre semanticas probabilısticas
para varias outras logicas. Daremos alguns exemplos de semanticas probabilıstica para
logicas nao classicas no Capıtulo 4.
2.5 Majorando a incerteza
Com os Teoremas de Correcao (2.4.2) e Completude (2.4.3) demonstrados na secao
anterior, pudemos argumentar que a semantica probabilıstica incorpora a logica classica
nos casos em que ha certeza absoluta sobre veracidade ou falsidade de sentencas. Mas,
para tratar da propagacao de incerteza e propor uma solucao para dilemas como o Para-
doxo da Loteria, a relacao de consequencia probabilıstica definida nao e suficiente, pois
ela nao considera graus de certeza que nao sejam 0 ou 1.
Na Secao 2.1, dissemos que para solucionar o Paradoxo da Loteria, vamos refutar
o princıpio de que um conjunto de sentencas aceitas racionalmente e dedutivamente fe-
chado. Isto e consequencia do fato de entendermos sentencas aceitas racionalmente como
sentencas com alto grau de certeza, alto valor de probabilidade. E, como veremos, cada
inferencia logica deve ser tratada individualmente para entendermos como o grau de in-
certeza das premissas desta inferencia se propagam para sua conclusao.
Vejamos um exemplo simples e imediato de propagacao de incerteza das premissas para
a conclusao. Para duas sentencas A e B e uma valoracao probabilıstica P , a seguinte lei
de probabilidades se aplica:
P (B) = P (A ∨B) + P (A→ B)− 1.
Podemos verificar facilmente esta lei observando as seguintes equacoes, que sao ba-
seadas nas descricoes de estado que formam as FNDs das sentencas em questao na lei
acima:
• P (B) = P (A ∧B) + P (¬A ∧B);
52
• P (A ∨B) = P (A ∧ ¬B) + P (A ∧B) + P (¬A ∧B);
• P (A→ B) = P (A ∧B) + P (¬A ∧B) + P (¬A ∧ ¬B);
• 1 = P (A ∧ ¬B) + P (A ∧B) + P (¬A ∧B) + P (¬A ∧ ¬B).
Agora, vamos analisar a inferencia formalizada pela consequencia logica classica:
A ∨B,A→ B ` B.
Tendo algum grau de incerteza sobre as premissas desta inferencia, representado pela
associacao de probabilidades atraves da valoracao P a cada uma delas, segue imediata-
mente, pela lei de probabilidades apresentada acima, qual o exato grau de incerteza que
devemos ter sobre a conclusao da inferencia, representado pela probabilidade
P (A ∨B) + P (A→ B)− 1.
Nesta inferencia e possıvel calcular exatamente como a incerteza sobre as premissas se
propaga para a conclusao. Porem, isto nem sempre e possıvel. Considere, por exemplo,
a inferencia conhecida como silogismo disjuntivo, formalizada pela consequencia logica
classica:
A ∨B,¬A ` B.
Poderıamos ter uma distribuicao de probabilidade para o conjunto A,B como:
• P1(A ∧B) = 0, 1;
• P1(¬A ∧B) = 0, 6;
• P1(A ∧ ¬B) = 0, 2;
• P1(¬A ∧ ¬B) = 0, 1;
e outra distribuicao de probabilidade para o mesmo conjunto como:
• P2(A ∧B) = 0;
• P2(¬A ∧B) = 0, 6;
• P2(A ∧ ¬B) = 0, 3;
• P2(¬A ∧ ¬B) = 0, 1.
Ambas as distribuicoes, P1 e P2, induzem a valoracao probabilıstica que tem como
casos:
• P (A ∨B) = P (A ∧B) + P (¬A ∧B) + P (A ∧ ¬B) = 0, 9;
• P (¬A) = P (¬A ∧B) + P (¬A ∧ ¬B) = 0, 7.
Assim, se representamos o grau de incerteza que temos sobre as premissas da inferencia
em questao por esta valoracao probabilıstica P e queremos saber como estas incertezas se
53
propagam na inferencia, nao poderemos encontrar um valor exato para a incerteza, pois
a valoracao probabilıstica P pode se comportar tanto como uma valoracao induzida por
P1 quanto uma valoracao induzida por P2:
• P1(B) = P1(A ∧B) + P1(¬A ∧B) = 0, 7;
• P2(B) = P2(A ∧B) + P2(¬A ∧B) = 0, 6.
O nosso estudo sobre a propagacao da incerteza seguira, portanto, na tentativa de
estimar qual a incerteza que podemos ter sobre a conclusao de uma inferencia ao inves de
calcula-la exatamente. Ate entao, estamos insistindo em falar de incerteza sobre sentencas,
pois nos parece mais natural do que dizer que temos um grau de certeza sobre elas, apesar
de ser isto que entendemos que as valoracoes probabilısticas representam. E claro que
estes termos estao intimamente ligados: se temos apenas um grau de certeza, que nao
absoluta, sobre uma sentenca, estamos, entao, incertos sobre ela. No entanto, a partir de
agora tomaremos a incerteza como um conceito relevante e vamos defini-la a partir da
nocao de probabilidade. Concordando com Adams (Ada98), temos como consequencia
que os proximos resultados, relacionando inferencias logicas com probabilidades, sao mais
facilmente enunciados em termos deste novo conceito.
As funcoes de incerteza sao outra maneira de perceber as valoracoes probabilısticas.
Elas medem a probabilidade de uma sentenca ser falsa e sao definidas assim: dada uma
valoracao probabilıstica P , a funcao de incerteza6 UP : L → R associada a ela e dada por
UP (ϕ) = 1− P (ϕ), para ϕ ∈ L.
A seguir, temos alguns lemas que tratam das funcoes de incerteza e, em seguida, um
teorema, originalmente demonstrado por Suppes (Sup66), que da um grande passo em
relacao ao entendimento da propagacao de incerteza em inferencias.
Lema 2.5.1. Sejam ϕ, ψ ∈ L tais que ` ϕ→ ψ e P uma valoracao probabilıstica. Entao,
UP (ψ) ≤ UP (ϕ).
Demonstracao. Pelo Teorema 2.2.1, temos que P (ϕ) ≤ P (ψ). Aplicando a definicao da
funcao de incerteza UP , segue o resultado.
Lema 2.5.2. Sejam ϕ1, . . . , ϕn ∈ L e P uma valoracao probabilıstica. Entao,
UP (ϕ1 ∧ · · · ∧ ϕn) ≤ UP (ϕ1) + · · ·+ UP (ϕn).
6O nome U da funcao de incerteza e devido ao termo em ingles uncertainty.
54
Demonstracao. Primeiro vamos mostrar para n = 2. Pelo Teorema 2.2.1, temos que
P (ϕ1) + P (ϕ2) = P (ϕ1 ∧ ϕ2) + P (ϕ1 ∨ ϕ2) e, pela definicao da funcao de incerteza UP ,
segue que UP (ϕ1) + UP (ϕ2) = UP (ϕ1 ∧ ϕ2) + UP (ϕ1 ∨ ϕ2). Assim, como nao e difıcil ver
que UP (ϕ1 ∨ ϕ2) ≥ 0, segue o resultado. Com este caso e por inducao, segue o resultado
para n qualquer.
Teorema 2.5.1. Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn ` ψ, entao, para uma valoracao
probabilıstica P ,
UP (ψ) ≤ UP (ϕ1) + · · ·+ UP (ϕn).
Demonstracao. Como ϕ1, . . . , ϕn ` ψ, temos que ` ϕ1 ∧ · · · ∧ϕn → ψ e, pelo Lema 2.5.1,
segue que UP (ψ) ≤ UP (ϕ1 ∧ · · · ∧ ϕn). Assim, com o Lema 2.5.2, segue o resultado.
Podemos estabelecer sobre a propagacao de incerteza, segundo a semantica proba-
bilıstica, que, em uma inferencia, a incerteza da conclusao nao excede a soma da incerteza
das premissas. E, entao, em qualquer inferencia em que ha qualquer grau de incerteza
sobre as premissas, podemos majorar a incerteza que podemos ter na conclusao. No
exemplo do silogismo disjuntivo dado ha pouco, temos que
UP (B) ≤ UP (A ∨B) + U(¬A) = (1− 0, 9) + (1− 0, 7) = 0, 4.
Neste exemplo, observamos duas valoracoes probabilısticas que modelam nossa in-
certeza sobre as premissas. As incertezas sobre a conclusao em cada uma delas e dada
por
• UP1(B) = 1− 0, 7 = 0, 3;
• UP2(B) = 1− 0, 6 = 0, 4.
As duas valoracoes, evidentemente, obedecem a majoracao do Teorema 2.5.1.
Vejamos, finalmente, como o Teorema 2.5.1 pode explicar o Paradoxo da Loteria, em
que tınhamos as sentencas A1, . . . , A1000 com probabilidades
P (An) =999
1000(n ∈ 1, . . . , 1000).
Valores de probabilidades tao altos que no raciocınio pratico faz estas sentencas serem
aceitas racionalmente e, se tomadas por premissas em uma inferencia, como a que e
formalizada pela consequencia logica
A1, . . . , A1000 ` A1 ∧ · · · ∧ A1000,
55
em que a conclusao sabemos ser falsa, chegamos a uma contradicao. Por outro lado, com
a ajuda do Teorema 2.5.1, temos a estimativa
UP (A1 ∧ · · · ∧ A1000) ≤1000∑n=1
UP (An) =1000∑n=1
1
1000= 1.
E verdade que esta estimativa nao lanca nenhuma luz sobre o verdadeiro valor de
UP (A1 ∧ · · · ∧ A1000), mas mostra que a semantica probabilıstica tambem nao aponta no
sentido de validar uma conclusao que e falsa. Desse modo, mostramos que ao aceitar
sentencas com alto valor de probabilidade como aceitas racionalmente, nao temos ne-
cessariamente o fecho dedutivo de um conjunto de sentencas justificadas. Ao contrario,
devemos proceder com a analise da propagacao de incerteza em inferencias que tomam
estas sentencas por premissas.
Notamos ainda que, em uma inferencia, nao e o pequeno grau de incerteza de cada
premissa que nos garantira um pequeno grau de incerteza da conclusao, mas sim o quanto
de incerteza e acumulado pelo conjunto de todas as premissas.
Outra aplicacao interessante do Teorema 2.5.1 e sobre a famosa inferencia Pseudo Sco-
tus : A,¬A ` B. E claro que, para qualquer valoracao probabilıstica P , UP (A)+UP (¬A) =
1 e, logo, UP (B) ≤ 1. Em LPC esta inferencia geralmente gera desconforto por admitir
que qualquer coisa seja concluıda das premissas, que nao sao necessariamente relacionadas
a conclusao. Podemos entender que na idealizacao de LPC, premissas contraditorias nao
poderiam existir, mas note que na semantica probabilıstica a conclusao que temos e que
P (B) ∈ [0, 1], o que nao diz nada sobre a probabilidade de B. Isto parece ser um resultado
mais confortavel, dado que nao ha nenhuma relacao das premissas com a conclusao.
Vejamos, agora, uma recıproca para o Teorema 2.5.1. Apesar de, no exemplo do
silogismo disjuntivo, existir uma funcao de incerteza que atinge a majoracao determinada
pelo Teorema 2.5.1, a saber, UP2 , este teorema nao garante que a majoracao determinada
e o maior valor que uma funcao de incerteza pode atingir. E, em geral, nao e o pior caso
de funcao de incerteza que conseguimos com este teorema.
Por exemplo, na inferencia representada pela consequencia logica
A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),
podemos associar a seguinte valoracao probabilıstica7, restrita as premissas, com sua
respectiva funcao de incerteza:
7Temos que P se trata, de fato, de uma valoracao probabilıstica. Para isto, basta definir uma dis-tribuicao de probabilidade sobre as descricoes de estado do conjunto A,B,C ou, entao, observar quequalquer associacao de probabilidades a um conjunto finito de sentencas atomicas induz uma valoracaoprobabilıstica, como mostra o Teorema 3.4.2. Do mesmo modo justificamos a valoracao probabilısticaintroduzida para chegar ao Paradoxo da Loteria, analoga a esta.
56
• P (A) = 0, 9;
• P (B) = 0, 9;
• P (C) = 0, 9;
• UP (A) = 0, 1;
• UP (B) = 0, 1;
• UP (C) = 0, 1.
Pelo Teorema 2.5.1, podemos majorar a incerteza da conclusao por
UP ((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ UP (A) + UP (B) + UP (C) = 0, 3.
Porem, pela consequencia logica
A,B ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),
podemos calcular uma outra majoracao para a incerteza da conclusao, que e a mesma da
inferencia original que estamos analisando:
UP ((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ UP (A) + UP (B) = 0, 2.
Nos casos em que a majoracao determinada pelo Teorema 2.5.1 e realmente o pior caso
possıvel que a funcao de incerteza pode atingir, como no exemplo do silogismo disjuntivo,
as premissas desta inferencia gozam da propriedade de serem premissas essenciais8: em
uma consequencia logica Γ ` ψ, em que Γ e um conjunto finito de sentencas de L, dizemos
que uma premissa ϕ ∈ Γ e uma premissa essencial se Γ \ ϕ 0 ψ. O proximo teorema,
uma recıproca parcial do Teorema 2.5.1, estabelece este resultado.
Teorema 2.5.2. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L e u1, . . . , un ≥ 0 numeros reais de
forma que u1 + · · ·+ un = 1. Entao, se ϕ1, . . . , ϕn ` ψ e as premissas desta consequencia
logica sao essenciais e logicamente compatıveis9, existe uma valoracao probabilıstica P tal
que UP (ϕi) = ui, para i = 1, . . . , n e
UP (ψ) = UP (ϕ1) + · · ·+ UP (ϕn).
Demonstracao. Vamos definir uma distribuicao de probabilidade sobre o conjunto K das
formulas atomicas A1, . . . , AJ que aparecem nas sentencas ϕ1, . . . , ϕn, ψ e vamos consi-
derar as FNDs destas sentencas em funcao das descricoes de estado do conjunto K.
Seja vi uma valoracao em que vi(ϕ1) = · · · = vi(ϕi−1) = vi(ϕi+1) = · · · = vi(ϕn) = 1
e vi(ϕi) = vi(ψ) = 0, para cada i = 1, . . . , n. Esta valoracao existe pois cada ϕi e uma
8Um conjunto de premissas essenciais que derivam a sentenca ψ e conhecido, na literatura, por kernelde ψ.
9Dizer que estas sentencas sao logicamente compatıveis significa que nao e o caso em que ` ¬(ϕ1 ∧· · · ∧ ϕn), generalizando definicao anterior dada na Secao 2.2.
57
premissa essencial na consequencia logica que estamos considerando. Sejam, agora, as
descricoes de estado Ki de K que contem os literais Aj, se vi(Aj) = 1 e os literais ¬Aj,se vi(Aj) = 0. Seja, tambem, v0 uma valoracao em que v0(ϕ1) = · · · = v0(ϕn) = 1, que
existe pois as formulas ϕ1, . . . , ϕn sao logicamente compatıveis e, a descricao de estado K0
aquela que contem os literais Aj quando v0(Aj) = 1 e os literais ¬Aj quando v0(Aj) = 0.
Definimos a distribuicao de probabilidade P por:
• P (K0) = 1− (u1 + · · ·+ un);
• P (Ki) = ui (i = 1, . . . , n);
• P (K ′) = 0, para todas as outras descricoes de estado.
Note que, como vi(Ki) = 1 e vi(ϕi) = 0, Ki nao aparece na FND de ϕi, para i =
1, . . . , n. Por outro lado, quando i 6= j, vi(ϕj) = vi(Ki) = 1 e, entao, Ki aparece na FND
de ϕj. Note, tambem, que v0(ϕi) = 1 e v0(K0) = 1, para i = 1, . . . , n e, entao, K0 aparece
na FND de ϕi, para i = 1, . . . , n. Portanto, para i = 1, . . . , n, temos que
P (ϕi) = [1− (u1 + · · ·+ un)] + [u1 + · · ·+ ui−1 + ui+1 + · · ·+ un] = 1− ui.
Agora, note que, como vi(Ki) = 1 e vi(ψ) = 0, Ki nao aparece na FND de ψ, para
i = 1, . . . , n. Por outro lado, como ϕ1, . . . , ϕn ` ψ, temos que v0(ψ) = 1. Junto a isto,
como v0(K0) = 1, segue que K0 faz parte da FND de ψ. Portanto, temos que
P (ψ) = 1− (u1 + · · ·+ un).
Finalmente, temos a funcao de incerteza UP em que
UP (ϕi) = 1− (1− ui) = ui (i = 1, . . . , n)
e, tambem,
UP (ψ) = 1− [1− (u1 + · · ·+ un)] = u1 + · · ·+ un = UP (ϕ1) + · · ·+ UP (ϕn).
O Teorema 2.5.2 e uma recıproca parcial do Teorema 2.5.1 pois, apesar de garantir
que a majoracao e o pior caso possıvel de incerteza da conclusao em algumas inferencias,
nao garante para todas. De fato, na consequencia logica
A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),
58
nenhuma das premissas - A, B ou C - e essencial e, como vimos, a aplicacao do Teorema
2.5.1 nao nos oferece o pior caso de incerteza.
Porem, mesmo fazendo uso da consequencia
A,B ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),
em que as premissas sao essenciais, nao obtemos o pior caso de incerteza pois, quando
deixamos de considerar as tres premissas originais, perdemos informacoes que poderiam
diminuir mais ainda a majoracao. No Capıtulo 3 teremos condicoes de calcular o pior
caso possıvel de incerteza para este exemplo.
2.6 Consequencia probabilıstica de Adams
Apesar de a majoracao que conseguimos calcular para a incerteza da conclusao de
uma inferencia nao ser otima, no sentido que nao existe necessariamente uma funcao de
incerteza que a atinja, o Teorema 2.5.1 exprime de maneira simples e muito elucidativa
o comportamento da propagacao de incerteza nas inferencias. De tao elucidativo, este
resultado nos leva a definir outra relacao de consequencia probabilıstica para as sentencas
de L baseada na semantica probabilıstica, assim como Adams (Ada98).
Definicao 2.6.1. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L. A relacao de consequencia
probabilıstica de Adams, denotada por
ϕ1, . . . , ϕn |=A ψ,
e definida da seguinte maneira: para toda valoracao probabilıstica P temos que
UP (ψ) ≤n∑i=1
UP (ϕi).
Com a relacao de consequencia probabilıstica de Adams, temos outro sistema de logica
probabilıstica. Ja sabemos, pelo Teorema 2.5.1, que toda consequencia logica de LPC e
tambem uma consequencia probabilıstica deste sistema ou, entao, que LPC e correto para
a relacao de consequencia probabilıstica de Adams. E interessante que, alem disso, LPC
tambem e completo para esta relacao de consequencia, como podemos ver no proximo
resultado.
Teorema 2.6.1 (Completude). Sejam ϕ1, . . . , ϕn, ψ ∈ L. Se ϕ1, . . . , ϕn |=A ψ, entao
ϕ1, . . . , ϕn ` ψ.
59
Demonstracao. Seja v uma valoracao da semantica bivalorada de LPC em que v(ϕ1) =
· · · = v(ϕn) = 1. Pelo Lema 2.4.2, esta valoracao e tambem uma valoracao probabilıstica.
Assim, temos na funcao de incerteza associada a v, Uv(ϕ1) = · · · = Uv(ϕn) = 0. Agora,
assumindo que ϕ1, . . . , ϕn |=A ψ, segue que Uv(ψ) = 0. Ou seja, v(ψ) = 1 e temos que
ϕ1, . . . , ϕn ` ψ.
Mais uma vez, o sistema de logica probabilıstica em que chegamos e equivalente a
LPC. Por um lado, sobre a propagacao de incerteza, temos que a consequencia logica e
forte o suficiente para garantir que a sua conclusao e no maximo tao incerta quanto a
incerteza acumulada pelas premissas. Este foi o aclamado resultado do Teorema 2.5.1.
Por outro lado, considerando a consequencia probabilıstica de Adams, notamos que,
dadas incertezas sobre um conjunto de sentencas Γ, se com isto pudermos garantir que
uma outra sentenca ψ nao podera ser tao incerta quanto a incerteza acumulada pelas
primeiras, garantimos tambem que a verdade se propaga de Γ para ψ, no sentido da
logica classica.
Capıtulo 3
Valoracoes Probabilısticas eEstimativas de Probabilidade
Este capıtulo aprofunda os estudos sobre as valoracoes probabilısticas utilizando, para
representa-las, a linguagem da algebra linear. Com tal representacao, sera possıvel apre-
sentar o metodo de Hailperin para calcular o maior e o menor valores possıveis da pro-
babilidade de uma sentenca ψ ∈ L, dadas as probabilidades de um conjunto finito de
sentencas (Hai65).
Este metodo podera, entao, ser usado para calcular a majoracao e, agora tambem, a
minoracao otimas da incerteza da conclusao de uma inferencia, dadas as incertezas das
premissas.
Discutiremos, tambem, o Problema da Satisfatibilidade Probabilıstica e, ao final, es-
tudaremos a relacao de consequencia probabilıstica definida por Hailperin fazendo uso de
seu metodo de estimativa.
3.1 Pior caso e aceitacao racional
No Capıtulo 2, vimos o importante Teorema de Suppes (2.5.1), que determina uma
majoracao para a incerteza da conclusao de uma inferencia. No entanto, ao enunciar uma
recıproca para este teorema, nao se consegue mais do que uma recıproca parcial. Para
garantir a existencia de uma funcao de incerteza que atinja, na conclusao, a majoracao
determinada pelo resultado de Suppes, devemos garantir, tambem, que as premissas da
inferencia sejam essenciais, conforme definicao da Secao 2.5.
Nao e o caso, por exemplo, da inferencia exibida na Secao 2.5, atraves da consequencia
logica
A,B,C ` (A ∧B) ∨ (A ∧ C) ∨ (B ∧ C),
em que, com incertezas U(A) = U(B) = U(C) = 0, 1, conseguimos, no maximo, a
60
61
estimativa
U((A ∧B) ∨ (A ∧ C) ∨ (B ∧ C)) ≤ 0, 2.
E, mesmo assim, conseguimos esta estimativa utilizando o artifıcio de abandonar uma das
hipoteses A, B ou C, ja que isso nao impacta na derivacao da conclusao. Como veremos,
ao abandonar uma hipotese, perdemos informacoes sobre as valoracoes probabilısticas e
nao conseguimos calcular o pior caso da incerteza.
Quanto a importancia de calcular efetivamente o pior caso da incerteza sobre uma
sentenca, observamos que, quanto menor a majoracao da incerteza de uma sentenca,
maior confianca temos em sua veracidade. Portanto, sabermos o pior caso da incerteza de
uma sentenca pode fazer toda diferenca ao decidir que acao tomar frente a esta informacao.
Por exemplo, com uma majoracao de 0, 3 para a incerteza de uma sentenca, um indivıduo
pode querer evitar uma certa atitude que tomaria se tivesse uma majoracao de 0, 15.
Kyburg, em (Kyb97), observa que uma estrutura convencional de testes estatısticos
em psicologia e medicina consiste em, ao testar a chamada hipotese nula H0 (que re-
presenta “sem efeito”), demarcar uma pequena margem de erro ε, de modo que, se a
hipotese testada for verdadeira, somente em uma fracao dos testes menor que ε, obtere-
mos evidencias contrarias a hipotese. Ou seja, a probabilidade de uma amostra do teste
rejeitar falsamente a hipotese H0 e menor do que ε ou, ainda, a probabilidade de uma
amostra verificar a hipotese verdadeira H0 e 1− ε.Sobre o valor de ε, Kyburg pondera que o que e considerado uma pequena margem de
erro em um contexto, pode nao ser em outro. Mas, acertado o valor da margem de erro,
podemos ficar confortaveis ao supor que o resultado do experimento nao esta enganado
desde que a fracao de testes que contrariam o resultado nao passem esta margem. Em
outras palavras, a hipotese e racionalmente aceita.
Nao e difıcil conceber uma extrapolacao do criterio estatıstico observado por Kyburg
para um criterio simples de aceitacao racional de uma sentenca baseado em probabilidades:
tomando um valor ε ∈ [0, 1], estabelecemos que uma sentenca ϕ ∈ L esta racionalmente
aceita se U(ϕ) ≤ ε ou, equivalentemente, se P (ϕ) ≥ 1 − ε. Quanto menor o valor de ε,
mais rıgido e o criterio para aceitar racionalmente uma sentenca.
Logo, ao associarmos incertezas as premissas de uma inferencia, pode ser de grande
interesse, em varios contextos, sabermos qual o pior caso, o maior grau de incerteza, que a
conclusao desta inferencia pode assumir, dentre todas as possibilidades de configuracao de
nossa incerteza sobre as sentencas, ou seja, dentre todas as funcoes de incerteza possıveis.
Equivalentemente, dentre todas as valoracoes probabilısticas possıveis.
O principal objetivo deste capıtulo e buscar um metodo para calcular a majoracao
62
otima da incerteza (i.e., o pior caso possıvel que a incerteza pode assumir). Seguindo
Hailperin, vamos trabalhar somente com as valoracoes probabilısticas e, a partir de agora,
abandonaremos, salvo caso de comparacao com exemplos anteriores, as funcoes de incer-
teza. Estas funcoes haviam sido definidas para deixar resultados, como o Teorema de
Suppes, menos carregados de notacao. Com a investigacao via algebra linear das va-
loracoes probabilısticas, dificilmente conseguiremos tal fim novamente.
Portanto, o objetivo passa a ser encontrar uma minoracao otima da probabilidade.
Como veremos, o calculo da minoracao otima da probabilidade de ψ ∈ L e equivalente
ao calculo da majoracao otima da probabilidade de ¬ψ. Desenvolveremos, entao, um
metodo para a majoracao, com o intuito de aplica-lo no calculo da minoracao. No fim,
com ambas majoracao e minoracao, obtemos um intervalo em que a probabilidade se
encontra. Chamamos este intervalo de estimativa (otima) da probabilidade.
3.2 Algebra linear e valoracoes probabilısticas
O calculo da estimativa otima da probabilidade de uma sentenca, dadas as proba-
bilidades de outras sentencas, acontecera no contexto da algebra linear e da otimizacao
linear 1. Para isso, nosso primeiro passo sera a algebrizacao das valoracoes probabilısticas.
A seguir, vamos expressar algebricamente alguns valores de probabilidade e algumas pro-
priedades das valoracoes probabilısticas.
Sejam ϕ1, . . . , ϕm, ψ ∈ L sentencas compostas pelas sentencas atomicas A1, . . . , An e
P uma valoracao probabilıstica que toma os valores
P (ϕi) = ai ∈ [0, 1] (i = 1, . . . ,m).
Como P (ψ) tem o mesmo valor de P para a FND canonica2 de ψ, vamos supor que
ψ ja esta em sua FND canonica. Alem disso, sendo Kj (j = 1, . . . , 2n) as descricoes de
estado do conjunto A1, . . . , An, vamos convencionar
P (Kj) = kj (j = 1, . . . , 2n).
Temos, entao, que
P (ψ) =2n∑j=1
δ(ψ)j kj = δ(ψ)k,
1Nao sera exigido, para a compreensao deste texto, conhecimento profundo de nenhuma destas discipli-nas. Para a algebra linear, basta a familiaridade com as notacoes de sistemas lineares, matrizes, vetorese com as operacoes de multiplicacao, adicao, transposicao e inversao sobre matrizes. Recomendamos(CDC07) como referencia para estes assuntos. Sobre otimizacao linear, o necessario para a compreensaoencontra-se no Apendice B.
2Lembramos que os resultados que nos permitem trabalhar com FNDs, FNDs canonicas e composicaode FNDs em termos de descricoes de estado se encontram no Apendice A.
63
em que δ(ψ)k e o produto do vetor linha δ(ψ) = [δ(ψ)1 , . . . , δ
(ψ)2n ] pelo vetor coluna k =
[k1, . . . , k2n ]T e
δ(ψ)j =
1, se ` Kj → ψ0, se ` Kj → ¬ψ
(j = 1, . . . , 2n).
Por outro lado, as probabilidades das sentencas ϕi (i = 1, . . . ,m) podem ser expressas
algebricamente por
P (ϕi) =2n∑j=1
aijkj, (i = 1, . . . ,m), (3.1)
em que
aij =
1, se ` Kj → ϕi0, se ` Kj → ¬ϕi
(i = 1, . . . ,m; j = 1, . . . , 2n).
Note que o vetor δ(ψ) e o responsavel para que se some somente as probabilidades das
descricoes de estado que compoem a FND de ψ no produto δ(ψ)k. Da mesma forma, as
constantes aij garantem que a formula (3.1) realmente expresse a probabilidade de ϕi. As
propriedades2n∑j=1
kj = 1, (3.2)
kj ≥ 0 (j = 1, . . . , 2n), (3.3)
que ja sabemos terem que ser satisfeitas, tambem nos serao uteis. Agora, escrevemos
(3.1), (3.2) e (3.3) na forma matricial
Ak = a+, (3.4)
k ≥ 0, (3.5)
em que a+ = [a1, . . . , am, 1]T (extensao de a = [a1, . . . , am]T ), e
A =
a11 · · · a12n
.... . .
...am1 . . . am2n
1 · · · 1
.Vejamos alguns exemplos destas expressoes para alguns casos. Seja ψ(A,B,C) =
A∨B → C de modo que P (A) = a, P (B) = b e P (C) = c. Enumeremos as descricoes de
estado de A,B,C:
• K1 = A ∧B ∧ C;
• K2 = ¬A ∧B ∧ ¬C;
• K3 = A ∧ ¬B ∧ C;
• K4 = A ∧ ¬B ∧ ¬C;
• K5 = ¬A ∧B ∧ C;
• K6 = A ∧B ∧ ¬C;
• K7 = ¬A ∧ ¬B ∧ C;
• K8 = ¬A ∧ ¬B ∧ ¬C.
64
Como a FND de ψ e K1 ∨K3 ∨K5 ∨K7 ∨K8, temos o vetor δ(ψ) = [1, 0, 1, 0, 1, 0, 1, 1] e,
portanto,
δ(ψ)k = k1 + k3 + k5 + k7 + k8.
Temos, tambem,
δ(¬ψ)k = k2 + k4 + k6.
Tendo em mente que cada sentenca atomica de ψ e equivalente a disjuncao das descricoes
de estado em que ela nao aparece negada, montamos facilmente a expressao (3.4):
Ak =
1 0 1 1 0 1 0 01 1 0 0 1 1 0 01 0 1 0 1 0 1 01 1 1 1 1 1 1 1
k1
k2
k3
k4
k5
k6
k7
k8
=
abc1
= a+.
Considerando, agora, ψ(A,B,C) = (A∧B)∨ (A∧C)∨ (B∧C), ainda com P (A) = a,
P (B) = b e P (C) = c, podemos aproveitar a enumeracao das descricoes de estado feita
acima, a expressao (3.4) e a mesma do exemplo anterior e, como a FND de ψ agora e
K1 ∨K3 ∨K5 ∨K6, segue que
δ(ψ)k = k1 + k3 + k5 + k6.
Tambem,
δ(¬ψ)k = k2 + k4 + k7 + k8.
Para o ultimo exemplo, vamos considerar ψ(A,B) = B → A e ϕ(A,B) = A → B de
modo que P (A→ B) = a. Enumeremos as descricoes de estado de A,B:
• K1 = A ∧B;
• K2 = ¬A ∧B;
• K3 = A ∧ ¬B;
• K4 = ¬A ∧ ¬B.
As FNDs das sentencas que consideramos sao dadas por:
• ` ϕ↔ K1 ∨K2 ∨K4;
• ` ψ ↔ K1 ∨K3 ∨K4.
Portanto, temos
δ(ψ)k = k1 + k3 + k4.
65
Temos, tambem,
δ(¬ψ)k = k2
e
Ak =
[1 1 0 11 1 1 1
]k1
k2
k3
k4
=
[a1
]= a+.
3.3 Majoracao e minoracao otimas
Com a algebrizacao da secao anterior, vamos enunciar um problema de otimizacao
linear equivalente ao problema de encontrar as melhores majoracao e minoracao de P (ψ)
dadas as probabilidades P (ϕi) = ai (i = 1, . . . ,m) de outras sentencas. Focaremos na
questao da majoracao otima e, no final da secao, falaremos da minoracao.
A ψ e a ϕi estao associadas as expressoes δ(ψ)k e Ak = a+. Podemos entender que,
se variamos os valores de k ∈ Rn2, temos uma funcao q = δ(ψ)k. A majoracao otima
do valor de P (ψ) e justamente o valor maximo da funcao q = δ(ψ)k, dadas as restricoes
Ak = a+ e k ≥ 0. Seguimos na justificacao deste enunciado.
Seja o conjunto
α = p : p = P (ψ) em que, para alguma valoracao probabilıstica P , P (ϕi) = ai.
Se α possuir um maior elemento, este sera a majoracao otima para a probabilidade de ψ.
De fato, se α 6= ∅, ele possui um maior elemento, mas a demonstracao deste resultado,
encontrada em (Hai65), envolve varios conceitos matematicos que nao sao abordados neste
texto e, por isso, a omitimos.
Definimos, tambem, o conjunto
β = q : q = δ(ψ)k em que, para algum k ∈ R2n , k ≥ 0 e Ak = a+ .
β e a colecao de todos os valores que a funcao q = δ(ψ)k pode assumir e, se ele possuir
um maior elemento, sera a solucao do problema de otimizacao linear que enunciamos logo
acima. Portanto, para identificar o problema inicial da majoracao otima com o problema
de otimizacao linear, basta mostrarmos que α = β.
Teorema 3.3.1. α = β.
Demonstracao. Seja p ∈ α. Entao, pela definicao de α, existe uma valoracao proba-
bilıstica P com as propriedades que definem este conjunto. Tomamos o vetor k =
66
[P (K1), . . . , P (K2n)]T , em que Kj (j = 1, . . . , 2n) sao as descricoes de estado do con-
junto A1, . . . , An. Com este vetor k e com toda discussao que levou a construcao dos
vetores a+ e δ(ψ) e da matriz A na secao anterior, segue que p ∈ β.
Agora, seja q ∈ β. Pela definicao de β, existe um vetor k = [k1, . . . , k2n ] ∈ R2n com,
entre outras consequencias da definicao deste conjunto, as propriedades de kj ∈ [0, 1],
para j = 1, . . . , 2n e de que a soma de todos os kj e 1. Podemos garantir, pelo Teorema
3.4.2, que existe uma valoracao probabilıstica P de modo que P (Kj) = kj (j = 1, . . . , 2n),
em que Kj sao as descricoes de estado do conjunto A1, . . . , An.Considerando que a FND de cada ϕi (i = 1, . . . ,m) esta representada pela linha i da
matriz A e pelo fato de Ak = a+, segue que P (ϕi) = ai (i = 1, . . . ,m). Finalmente,
pela construcao do vetor δ(ψ) e pelo fato de δ(ψ)k = q, segue que P (ψ) = q e, portanto,
q ∈ α.
Analisemos um aspecto importante do problema. Dado o vetor a = [a1, . . . , am]T com
elementos em [0, 1], esta colocado um problema de majorar P (ψ) dados P (ϕi) = ai. Como
dissemos, se α 6= ∅, este conjunto possui um maior elemento e o problema tera solucao.
Mas, ainda, resta garantir que existe ao menos um elemento em α, ou seja, existe ao
menos uma valoracao probabilıstica P , tal que P (ϕi) = ai. Esta questao, de garantir que
as associacoes de probabilidades feitas as sentencas sao coerentes, sera tratada na Secao
3.4.
Vamos tratar, agora, da questao da minoracao otima de P (ψ). A cada vetor a =
[a1, . . . , am]T ∈ Rm para o qual existe solucao do problema da majoracao, vamos denotar
o valor desta solucao por Mψ(a1, . . . , am).
Para encontrar o menor valor possıvel que P (ψ) pode tomar, dados os valores P (ϕi) =
ai, observamos que, dados estes valores, conseguimos calcular M¬ψ(a1, . . . , am). Assim,
P (¬ψ) ≤M¬ψ(a1, . . . , am).
Como P (¬ψ) = 1− P (ψ), manipulando esta desigualdade, temos
1−M¬ψ(a1, . . . , am) ≤ P (ψ).
Portanto, com a seguinte definicao da funcao de minoracao:
mψ(a1, . . . , am) = 1−M¬ψ(a1, . . . , am),
temos que o problema de obter o menor valor possıvel de P (ψ) se reduz a questao de
encontrar o maior valor possıvel de P (¬ψ).
67
Estamos no caminho de cumprir a proposta de apresentar um metodo efetivo para o
calculo da majoracao otima do valor de P (ψ). A efetividade do calculo repousa sobre a
Teoria de Otimizacao Linear. Abordaremos, na Secao 3.5, a questao da computacao da
funcao Mψ.
3.4 O problema da Satisfatibilidade Probabilıstica
Na Secao 3.3 chegamos a um impasse sobre o calculo da estimativa otima da probabi-
lidade de uma sentenca ψ: o problema de otimizacao linear que apresentamos somente faz
sentido quando temos o conjunto α 6= ∅. Caso contrario, nenhum vetor k satisfaz as res-
tricoes do problema. Equivalentemente, nao existe valoracao probabilıstica satisfazendo
as associacoes iniciais de probabilidades as sentencas ϕi.
Anterior a esta questao, todos os exemplos de associacao de probabilidades a sentencas
que demos no decorrer deste texto necessitam de justificativa quanto a existencia de uma
valoracao probabilıstica que a satisfaz.
Chamamos o problema da avaliacao da coerencia de valores de probabilidade associ-
ados a sentencas de Problema da Satisfatibilidade Probabilıstica, abreviado por PSAT.
Dado um conjunto finito de sentencas ϕ1, . . . , ϕn ⊂ L e valores de probabilidade
p1, . . . , pn ∈ [0, 1], o PSAT e definido como a questao de decidir sobre a existencia de
uma valoracao probabilıstica P tal que P (ϕi) = pi, para i = 1, . . . , n3.
Ate entao, os exemplos em que associamos valores de probabilidades a sentencas eram
de dois tipos: ou associamos probabilidades a sentencas atomicas ou exibimos uma dis-
tribuicao de probabilidade que induz os valores de probabilidades dados as sentencas. O
calculo e feito deste modo pois em ambos os casos podemos garantir a satisfatibilidade
probabilıstica (i.e., podemos garantir que as sentencas em questao podem tomar os va-
lores dados devido a existencia de uma valoracao probabilıstica), como mostraremos nos
proximos resultados.
O resultado a seguir garante a coerencia de valores de probabilidades, desde que estas
sejam fundamentados por uma distribuicao de probabilidade.
Teorema 3.4.1. Seja P uma distribuicao de probabilidade para as descricoes de estado do
conjunto α = A1, . . . , An ⊂ L. Entao, existe uma valoracao probabilıstica PE : L → Rtal que PE ±A1 ∧ · · · ∧ ±An = P .
3O PSAT e a generalizacao natural do Problema da Satisfatibilidade, o SAT: o problema de decidir se,dado um conjunto finito de sentencas ϕ1, . . . , ϕn ⊂ L, existe uma valoracao classica v tal que v(ϕi) = 1,para i = 1, . . . , n.
68
Demonstracao. Sendo o conjunto Γ ⊂ N = 1, . . . , n, definimos a valoracao proba-
bilıstica PE : L → R pelas seguintes clausulas:
• PE(ϕ) = P (ϕ), se ϕ for uma descricao de estados de α;
• PE(∧i∈Γ A
′i) =
∑± P (
∧i∈ΓA
′i ∧∧i∈N\Γ±Ai), em que A′i ∈ Ai,¬Ai;
• PE(∧i∈Γ A
′i∧ϕ) = 0, se ϕ for uma sentenca atomica ou uma descricao de estados com
ao menos um literal que nao seja negado, e nao for formada por nenhum elemento
de α;
• PE(∧i∈Γ A
′i ∧ ϕ) = PE(
∧i∈Γ A
′i), se ϕ for um literal negado ou uma descricao de
estados composta somente por literais negados, e nao for formada por nenhum
elemento de α;
• PE(ϕ) = 0, se ϕ nao se encaixa em nenhum caso anterior e for uma sentenca atomica
ou uma descricao de estados com ao menos um literal que nao seja negado;
• PE(ϕ) = 1, se ϕ nao se encaixa em nenhum caso anterior e for um literal negado ou
uma descricao de estados composta somente por literais negados;
• PE(ϕ) = 0, se ϕ for uma contradicao;
• PE(ϕ) =∑
i P (di(ϕ)), em que di(ϕ) sao as descricoes de estado da FND canonica
equivalente a ϕ, se ϕ nao se encaixa nos casos anteriores.
Vamos agora mostrar que PE satisfaz os axiomas K1-K3 da Definicao 2.2.1.
PE e nao-negativa em qualquer caso de sua definicao. Em particular, para qualquer
descricao de estado e, no ultimo caso, para um sentenca ϕ ∈ L,
PE(ϕ) =∑i
PE(di(ϕ)) ≥ 0.
Se ` ϕ, pela construcao canonica, a FND de ϕ e formada por todas as descricoes de
estado do conjunto das sentencas atomicas que a compoem. Este conjunto β de sentencas
atomicas pode satisfazer qualquer das situacoes: β = α, β ( α, α ⊂ β ou β ∩ α = ∅.As seis primeiras clausulas da definicao de PE contemplam todos estes casos e deste fato,
combinado com a definicao de distribuicao de probabilidade, segue que PE(ϕ) = 1.
Finalmente, para mostrar K3, seguimos a mesma estrategia que usamos no Teorema
2.4.1. Estendemos a FND canonica de ϕ para uma FND fϕ que contenha todas as
descricoes de estado das sentencas atomicas que compoem ϕ e ψ. Nesta extensao, e
importante que PE(ϕ) = PE(fϕ), o que e garantido pela definicao de PE.
69
Fazendo a construcao analoga com ψ, segue que a disjuncao das duas e exatamente a
FND canonica de ϕ ∨ ψ e, pelo fato de ` ¬(ϕ ∧ ψ), segue que nas FNDs construıdas nao
se repete nenhuma descricoes de estado. Portanto, PE(ϕ ∨ ψ) = PE(ϕ) + PE(ψ).
O proximo resultado deste tipo, a seguir, garante que quaisquer valores de probabili-
dades que associamos a um conjunto de sentencas atomicas e coerente.
Teorema 3.4.2. Seja α = A1, . . . , An um conjunto finito de sentencas atomicas de Lde forma que sao associadas probabilidades a cada elemento de α por P (Ai) = ai ∈ [0, 1],
para i = 1, . . . , n. Entao, existe uma valoracao probabilıstica PA : L → R de forma que
PA α = P .
Demonstracao. Definiremos uma distribuicao de probabilidade PA para as descricoes de
estado de α que pelo Teorema 3.4.1, podera ser estendida a uma valoracao probabilıstica.
Para isto, supomos, sem perda de generalidade, que a1 ≤ · · · ≤ an e a distribuicao PA e
definida por:
• PA(A1 ∧ · · · ∧ An) = a1;
• PA(¬A1 ∧ A2 ∧ · · · ∧ An) = a2 − a1;
• PA(¬A1 ∧ · · · ∧ ¬Am−1 ∧ Am ∧ · · · ∧ An) = am − am−1;
• PA(¬A1 ∧ · · · ∧ ¬An) = 1− an;
• PA(±A1∧ · · · ∧±An) = 0, para as demais descricoes de estado que nao se encaixam
nos itens acima.
PA e, de fato, uma distribuicao de probabilidade pois, definindo a0 = 0 e an+1 = 1,
temos que ∑±
P (±A1 ∧ · · · ∧ ±An) =n+1∑i=1
ai − ai−1 = 1.
Agora, ignorando as probabilidades de descricoes de estado que sao nulas, temos
tambem que
PA(Ai) =∑±
PA(±A1 ∧ · · · ∧ Ai ∧ · · · ∧ ±An) =
= P (A1 ∧ · · · ∧ An) + P (¬A1 ∧ A2 ∧ · · · ∧ Ai ∧ · · · ∧ An) + · · ·+
+P (¬A1 ∧ · · · ∧ ¬Ai−1 ∧ Ai ∧ · · · ∧ An) =i∑
j=1
aj − aj−1 = ai.
70
O Teorema 3.4.2 garante que sempre podemos efetuar o calculo do problema da secao
anterior no caso em que as sentencas ϕi sejam atomicas, pois teremos α 6= ∅. Para os
demais casos, ainda e preciso resolver o PSAT para proceder. Na proxima secao, veremos
um metodo de computacao da funcao Mψ que, alem de calcular o valor da funcao, tambem
resolve o PSAT.
Ainda sobre o PSAT, devemos lembrar que foi originalmente formulado por G. Boole
(Boo54) e foi introduzido na comunidade cientıfica da ciencia da computacao e da inte-
ligencia artificial por Nilsson (Nil86; Nil93). Nossa justificativa para estudar o PSAT e
completamente teorica, como justificado no inıcio desta secao e na Secao 3.3. Contudo,
este problema tem um consideravel potencial de aplicacoes como em modelos computaci-
onais para processos biologicos, aprendizado de maquina, economia, econometria, etc.
Portanto, apesar de nossa proposta de solucao atraves do Teorema 3.4.1 ser um tanto
“artesanal”, dado que e necessario procurar valores (a mao, no caso dos nossos exemplos)
para uma distribuicao de probabilidade a fim de justificar a satisfatibilidade, por seu
grande interesse computacional, esforcos tem sido feitos para descrever um algoritmo
eficiente para a resolucao do PSAT e para entender sua relacao com o SAT, ja que ambos os
problemas tem mesma complexidade computacional. M. Finger e G. De Bona investigam
questoes como estas em (FDB10), (FDB11) e (FDB15).
3.5 Computacao de Mψ e mψ
Definidas as funcoes4 Mψ e mψ, vamos tratar da efetividade de sua computacao, lem-
brando que basta focarmos na computacao de Mψ. O calculo destas funcoes e dado
pela resolucao de um problema de otimizacao linear, portanto podemos utilizar qualquer
metodo dedicado a resolver este tipo de problema para efetivar a computacao. Vamos
apresentar um dos metodos possıveis5.
Primeiro, colocamos o problema de encontrar o maximo da funcao
q = δ(ψ)k,
com as restricoes Ak = a+ e k ≥ 0 na forma standard (Apendice B, Secao B.1). Para
isso, observamos que as restricoes Ak = a+ sao equivalentes as restricoes Ak ≤ a+ e
4Sabemos que Mψ e mψ nao sao necessariamente definidas para todos os vetores a = [a1, . . . , am]T ,pois nem todos estes valores sao probabilidades satisfatıveis. Mesmo assim, chamamos Mψ e mψ defuncoes pois entendemos que os vetores em que elas nao sao definidas nao estao em seus domınios.
5Nesta secao e feito o uso mais aprofundado da Teoria de Otimizacao Linear neste trabalho. Todosos termos e resultados referidos aqui se encontram definidos e enunciados no Apendice B.
71
Ak ≥ a+. Entao, podemos reescreve-las na forma matricial[A−A
]k ≤
[a+
−a+
].
Agora, destas restricoes, temos que k1 + · · · + k2n = 1 e ki ≥ 0 (i = 1, . . . , 2n) e,
portanto, |ki| ≤ 1 (i = 1, . . . , 2n). Entao, pelo Teorema B.3.1, segue que, se o problema
de otimizacao linear for satisfatıvel, sua solucao se encontrara em um dos pontos extremos
do poliedro definido pelas suas restricoes.
Logo, basta encontrar todos os pontos extremos deste poliedro e calcular o valor da
funcao q em cada um deles, conforme algoritmo apresentado na Secao B.3. O maior destes
valores sera o valor de Mψ(a1, . . . , am). Note que se o poliedro nao possuir nenhum ponto
extremo, a regiao sobre a qual esta definido o problema de otimizacao nao e satisfatıvel.
E isso somente pode ser uma consequencia de termos o conjunto α 6= ∅, ou seja, da
atribuicao de probabilidades as sentencas ϕi nao ser satisfatıvel. Dessa forma, este metodo
nos retorna uma solucao negativa do problema PSAT6.
Pode parecer que para calcular a funcao Mψ(a1, . . . , am) e necessario resolver infinitos
problemas de otimizacao linear, cada um dado por um vetor a = [a1, . . . , am]T . Vamos
mostrar outro metodo de calculo, no qual isso nao se faz necessario, por conta do Teorema
Dual (B.2.1). O interesse nesse metodo e que poderemos expressar estimativas otimas para
ψ em funcao do vetor a, como nos exemplos do final desta secao.
A forma dual do problema original e o problema de minimizar a funcao
Q =
[a+
−a+
]Tw,
sujeita as restricoes [A−A
]Tw ≥ δ(ψ)T e w ≥ 0,
em que w = [w1, . . . , w2(n+1)]T e a variavel livre da funcao Q. Portanto, pelo Teorema
Dual, se o problema original tem solucao k∗, o problema dual tem solucao w∗ e
k∗ = w∗.
A partir de agora, com o intento de calcular o valor de Mψ(a1, . . . , am), vamos nos
voltar ao calculo do mınimo da funcao Q sujeita as restricoes apresentadas. Para simplifi-
car, definimos os vetores u = [u1, . . . , um+1]T e v = [v1, . . . , vm+1]T , de modo que ui = wi,
6Neste paragrafo, estamos usando a palavra satisfatıvel em dois contextos diferentes. Em um deles,estamos falando que a regiao definida pelas restricoes de um problema de otimizacao linear e vazia, comodefinido no Apendice B. No outro, estamos nos referindo a satisfatibilidade do problema PSAT. Veja queambos os casos estao relacionados.
72
para i = 1, . . . ,m+ 1, e vi = wi, para i = m+ 2, . . . , 2(m+ 1), e observamos que[a+
−a+
]Tw =
[a+T −a+T
] [ uv
]= a+T (u− v)
e [A−A
]Tw =
[AT −AT
] [ uv
]= AT (u− v).
Assim, definindo o vetor x = u−v, para solucionar o problema dual e suficiente encontrar
o mınimo de
Q = a+Tx
com as restricoes
ATx ≥ δ(ψ)T ,
nao sendo necessaria a clausula de nao negatividade pois, dado um valor x∗ que soluciona
o problema, e possıvel escrever x∗ = u∗ − v∗ com u∗,v∗ ≥ 0.
Pelo Teorema B.3.2, se a regiao definida pelas restricoes deste problema de otimizacao
linear possuir um ponto extremo e garantirmos que este problema possui solucao, sua
solucao se encontra em um dos pontos extremos desta regiao. Supondo que seja o caso,
sendo os r pontos extremos dados por
xc = [xc1, . . . , xcm+1]T (c = 1, . . . , r),
temos a seguinte expressao:
Mψ(a1, . . . , am) = minc=1,...,r
a+Txc.
Logo, dada uma sentenca ψ, basta calcularmos todos os pontos extremos da regiao
definida por ψ, atraves das restricoes ATx ≥ δ(ψ)T e, assim, o valor de Mψ e dado pelo
elemento mınimo de um conjunto finito.
A pendencia que permanece neste metodo e de garantir a existencia de solucao para o
problema de otimizacao linear. Nem que encontremos pontos extremos na regiao definida
pelas restricoes, podemos garantir que o problema e soluvel. Para prosseguir com esta
abordagem, segundo o Teorema B.3.2, e necessario garantir a coerencia das atribuicoes
de probabilidades e, ainda, encontrar ao menos um ponto extremo na regiao em questao.
As restricoes do primeiro problema apresentado na Secao 3.2 na forma dual se tornam:
ATx =
1 1 1 10 1 0 11 0 1 11 0 0 10 1 1 11 1 0 10 0 1 10 0 0 1
x1
x2
x3
x4
≥
10101011
= δ(ψ)T .
73
Para calcular os pontos extremos da regiao definida por estas restricoes, se existirem,
usamos um metodo analogo ao sugerido na Secao B.3.1. Ou seja, procuramos as solucoes
unicas de todos os sistemas formados por quatro equacoes dentre as equacoes do sistema
original ATx = δ(ψ)T e testamos as solucoes encontradas de acordo com as restricoes
originais ATx ≥ δ(ψ)T .
No nosso exemplo, devem ser analisados 70 sistemas7 e, feito isso computacionalmente,
descobrimos que a regiao possui pontos extremos e estes sao dados pelas colunas da
seguinte matriz:
X =
0 −1 0−1 0 0
1 1 01 1 1
,em que cada coluna i (i = 1, 2, 3) e um vetor xi. Assim, como os valores de probabilidade
a, b, c ∈ R atribuıdos as sentencas A, B e C sao coerentes, pois tratamos de sentencas
atomicas (Teorema 3.4.2), temos que
Mψ(a, b, c) = mini=1,2,3
[a b c 1
]xi = minc− b+ 1, c− a+ 1, 1.
Analogamente ao desenvolvimento acima podemos calcular
mψ(a, b, c) = 1−M¬ψ(a, b, c) = 1−min1− c, a+ b = maxc, 1− a− b.
Para o segundo exemplo da Secao 3.2, em que ψ = (A ∧ B) ∨ (A ∧ C) ∨ (B ∧ C), os
calculos nos dao:
P (ψ) ≥ max
a2 + a3 − 1, a1 + a3 − 1,
1
2(a1 + a2 + a3)− 1
2, a1 + a2 − 1, 0
e
P (ψ) ≤ min
1, b1 + b2,
1
2(b1 + b2 + b3), b1 + b3, b2 + b3
.
Quando P (A) = P (B) = P (C) = 0, 9, como no exemplo introdutorio da Secao 3.1, temos
P (ψ) ≥ max0, 8; 0, 85; 0 = 0, 85,
e, portanto,
UP (ψ) ≤ 0, 15,
uma majoracao da incerteza menor do que aquela que tınhamos ate entao, de 0, 2, e
exatamente a metade da majoracao dada pelo Teorema de Suppes nesse caso, de 0, 3. Para
7Assim como ha metodos mais eficientes para resolver o PSAT, como observamos no final da secaoanterior, tambem ha metodos mais eficientes para resolver este problema, como comentamos no ApendiceB. Porem, desde que nossa preocupacao nao e a eficiencia computacional, optamos por descrever estemetodo, dada sua simplicidade.
74
um criterio rigoroso de aceitacao racional com, por exemplo, ε = 0, 15, seria importante
saber este valor da majoracao otima.
No ultimo exemplo da Secao 3.2, para ψ = B → A, temos
1− a ≤ P (B → A) ≤ 1,
em que a ∈ R e o valor de probabilidade atribuıdo a A → B, coerente pois e a unica
atribuicao assumida.
Para finalizar a secao, vejamos algumas propriedades das valoracoes probabilısticas
que atingem os valores majorante e minorante. Primeiro, notamos que estas valoracoes
nao sao necessariamente determinadas por uma unica distribuicao de probabilidade, ou
seja, estas valoracoes nao sao unicas. No caso do exemplo anterior em que, para o valor
P (A→ B) = 0, 3,
a funcao MB→A(0, 3) nos garante que existe uma valoracao probabilıstica PM , de forma
que
PM(B → A) = 1.
No entanto, apresentamos abaixo duas distribuicoes de probabilidade PM1 e PM2 distintas
que induzem uma valoracao PM restrita a A→ B e B → A:
• PM1(A ∧B) = 0, 1;
• PM1(¬A ∧B) = 0;
• PM1(A ∧ ¬B) = 0, 7;
• PM1(¬A ∧ ¬B) = 0, 2;
• PM2(A ∧B) = 0, 2;
• PM2(¬A ∧B) = 0;
• PM2(A ∧ ¬B) = 0, 7;
• PM2(¬A ∧ ¬B) = 0, 1.
Outra propriedade interessante, destacada por G. De Bona em (DB11) e consequencia
do conhecido Teorema de Caratheodory, e a seguinte8: se o problema de calcular Mψ
e mψ esta bem colocado, com associacoes coerentes de valores de probabilidades a m
sentencas, existem distribuicoes de probabilidade que induzem valoracoes majorantes e
minorantes com, no maximo, m + 1 valores diferentes de zero. No exemplo anterior, a
seguinte distribuicao verifica esta propriedade:
• PM3(A ∧B) = 0, 3;
• PM3(¬A ∧B) = 0;
• PM3(A ∧ ¬B) = 0, 7;
• PM3(¬A ∧ ¬B) = 0.
8O Teorema de Caratheodory, enunciado e demonstrado em (Hur10), esta intimamente relacionadocom o processo de otimizacao linear, como tambem e evidenciado nesta referencia.
75
3.6 Consequencia probabilıstica de Hailperin
Ate aqui, as relacoes de consequencia probabilıstica definidas no Capıtulo 2, como
vimos, sao equivalentes a relacao de consequencia logica classica. Isto porque estivemos
preocupados em estudar como as incertezas se propagam em inferencias. Na primeira
relacao definida, levamos em consideracao a preservacao dos valores de probabilidade 1,
que mostrou se comportar da mesma forma como a verdade se preserva na relacao de
consequencia logica. Ja na relacao de Adams, nos inspiramos no calculo da estimativa
da incerteza da conclusao de uma inferencia, dadas as incertezas das premissas destas
inferencias.
Contudo, com o metodo de estimativa de probabilidades exposto neste capıtulo, que,
apesar das maiores dificuldades tecnicas, generaliza os resultados que tınhamos, vamos
estudar outro tipo de consequencia probabilıstica. Esta nova relacao foi proposta por
Hailperin em (Hai84), (Hai96) e (Hai10).
Para introduzir a nova consequencia probabilıstica como uma generalizacao da con-
sequencia classica, lembramos que esta pode ser definida a partir das valoracoes classicas.
Assim, uma sentenca ψ ∈ L e uma consequencia logica das sentencas ϕ1, . . . , ϕn ∈ L se,
para toda valoracao v em que v(ϕ1) = · · · = v(ϕn) = 1, tenhamos v(ψ) = 1. Podemos
generalizar a consequencia logica classica afrouxando as exigencias sobre os valores de v
do seguinte modo: ψ e uma consequencia logica de ϕ1, . . . , ϕn se, para toda valoracao v
em que v(ϕ1) = v1, . . . , v(ϕn) = vn, tenhamos v(ψ) = v0 (em que v0, v1, . . . , vn ∈ 0, 1).Denotamos esta relacao por
V (ϕ1) = v1, . . . , V (ϕn) = vn |= V (ψ) = v0.
Podemos generalizar ainda a consequencia logica tomando α1, . . . , αn, β ∈ ℘(0, 1) \∅ e dizendo que ψ e consequencia logica de ϕ1, . . . , ϕn se, para toda valoracao v em que
v(ϕ1) ∈ α1, . . . , v(ϕn) ∈ αn, tenhamos v(ψ) ∈ β. Esta relacao e denotada por
V (ϕ1) ∈ α1, . . . , V (ϕn) ∈ αn |= V (ψ) ∈ β.
Veja que esta relacao de consequencia logica nao e definida sobre as sentencas de L, mas
sobre pares que envolvem uma sentenca de L e um conjunto, elemento de ℘(0, 1) \ ∅.Tomando ϕ1 = A → C, ϕ2 = B ∨ C e ψ = (A → B) ∧ (A ∨ B), alguns exemplos desta
relacao de consequencia logica sao:
• V (ϕ1) = 1, V (ϕ2) = 1 |= V (ψ) ∈ 0, 1,
• V (ϕ1) = 0, V (ϕ2) = 1 |= V (ψ) = 1,
76
• V (ϕ1) ∈ 0, 1, V (ϕ2) = 0 |= V (ψ) = 0.
(Note que quando o conjunto de valores e um conjunto unitario, como 1, denotamos,
por exemplo, V (ϕ1) = 1 ao inves de V (ϕ1) ∈ 1.)Hailperin observou (Hai84) que esta forma generalizada de consequencia logica pa-
rece nao ser de nenhum interesse para a logica classica bivalorada. Porem, ela serve de
prototipo para uma nova consequencia logica probabilıstica que prometemos definir nesta
secao.
Definicao 3.6.1. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L e os conjuntos α1, . . . , αn, β ⊂[0, 1]. A relacao de consequencia probabilıstica de Hailperin, denotada por
p(ϕ1) ∈ α1, . . . , p(ϕn) ∈ αn |=H p(ψ) ∈ β,
e definida da seguinte maneira: para toda valoracao probabilıstica P , tal que P (ϕ1) ∈α1, . . . , P (ϕn) ∈ αn, temos que P (ψ) ∈ β.
Podemos caracterizar alguns casos desta relacao de consequencia a partir das identi-
dades da Teoria de Probabilidades. Por exemplo, como para as sentencas ϕ, ψ ∈ L e para
qualquer valoracao probabilıstica P temos que
P (ϕ ∨ ψ) = P (ϕ) + P (ψ)− P (ϕ ∨ ψ),
segue que
p(ϕ) = a, p(ψ) = b, p(ϕ ∧ ψ) = c |=H p(ϕ ∨ ψ) = a+ b− c.
E claro que para quaisquer sentencas ϕ1, . . . , ϕn, ψ ∈ L e conjuntos α1, . . . , αn ⊂ [0, 1]
temos que
p(ϕ1) ∈ α1, . . . , p(ϕn) ∈ αn |= p(ψ) ∈ [0, 1].
Os casos de maior interesse da relacao de consequencia sao aqueles em que o conjunto
β associado a ψ e o menor possıvel, seja para tomarmos uma decisao mais confiavel de
acordo com a estimativa da probabilidade ou, ate, para garantir a aceitacao racional de
ψ com o criterio exposto na Secao 3.1.
Nos casos em que os conjuntos α1, . . . , αn sao unitarios, o metodo de estimar probabi-
lidades apresentado neste capıtulo resolve o problema de determinar o menor intervalo β
e caracteriza completamente esta classe da relacao de consequencia logica de Hailperin9.
Com o metodo de Hailperin, a semantica probabilıstica responde, para os casos de
conjuntos αi unitarios, a Questao Fundamental da Logica Probabilıstica10 (HRWW11),
9Nos casos em que α1, . . . , αn sao intervalos, o metodo apresentado pode ser facilmente adaptado paratambem determinar o menor intervalo β, como pode ser visto em (Hai65).
10Traducao livre de Fundamental Question of Probabilistic Logic, em (HRWW11, 3).
77
que e justamente encontrar quais conjuntos β podem ser associados a ψ dados ϕ1, . . . , ϕn
e α1, . . . , αn.
O primeiro exemplo de calculo utilizando o metodo deste capıtulo introduz a seguinte
consequencia de Hailperin:
p(A) = a, p(B) = b, p(C) = c
|=H p(A ∨B → C) ∈ [maxc, 1− a− b,minc− b+ 1, c− a+ 1, 1].
Alem deste, listamos a seguir outros exemplos da consequencia de Hailperin. Os dois
primeiros podemos entender como versoes probabilısticas das regras de inferencia e o
ultimo trata, de alguma forma, de uma conhecida inferencia falaciosa.
• p(A) = a, p(A→ B) = b |=H p(B) ∈ [a+ b− 1, b],
com a condicao de consistencia a + b ≥ 1, e uma versao probabilıstica da regra de
Modus Ponens ;
• p(A→ B) = a, p(B → C) = b |=H p(A→ C) ∈ [a+ b− 1, 1],
com a condicao de consistencia a + b ≥ 1, e uma versao probabilıstica da regra do
Silogismo Hipotetico;
• p(A→ B) = a |=H p(B → A) ∈ [1− a, 1]
e a falacia da inversao do condicional.
As condicoes de consistencia sobre as probabilidades das premissas garantem que existe
uma valoracao probabilıstica que valora as premissas desta forma. O problema de conhecer
as condicoes de consistencia se resume ao problema de garantir que nao seja vazia a
regiao delimitada pelas restricoes do problema de otimizacao linear associado ao calculo
da estimativa de probabilidades em questao. Ou seja, ao PSAT.
A relacao de consequencia probabilıstica de Hailperin aponta para uma nova vertente
da racionalidade, nao necessariamente coincidente com relacoes de consequencia proba-
bilıstica como a de Adams ou a relacao de consequencia tradicional apresentada na Secao
2.4. Contudo, uma comparacao entre estas relacoes de consequencia probabilıstica e uma
questao complicada, ainda nao resolvida na literatura.
Capıtulo 4
Probabilidades em LogicasNao-Classicas
Ate agora trabalhamos com semanticas probabilısticas para a logica proposicional
classica. Neste capıtulo vamos introduzir algumas outras maneiras de considerar proba-
bilidades em sistemas logicos nao-classicos.
Dentre as varias possibilidades de se aventurar nesta direcao, mostraremos alguns sis-
temas de logica modal em que a ideia de probabilidade e capturada atraves de operadores
modais e, tambem, apresentaremos semanticas probabilısticas para outros sistemas: de
logica multivalorada e de logica paraconsistente.
4.1 O provavel enquanto modalidade
Uma maneira alternativa de se considerar probabilidades em um sistema logico e
atraves de operadores modais de probabilidade. Na primeira abordagem que mostraremos
introduzimos o conceito de provavel na linguagem-objeto estendendo o alfabeto de L com
o operador unario P .
Em (Ham59), C. L. Hamblin estende L ainda com outros operadores para averiguar
as relacoes entre sentencas do tipo Pϕ, em que ϕ e uma sentenca nao-modal, e sentencas
do tipo 2ϕ e Vϕ. Aqui, 2 e o operador de necessidade e V e um operador epistemico que,
em Vϕ, e interpretado por “sabe-se que ϕ e verdadeiro”. A linguagem para o sistema
de C. L. Hamblin estende L com os operadores P , 2 e V sem admitir iteracao destes
operadores nas sentencas.
Dentre as interpretacoes propostas para Pϕ, uma delas faz uso da teoria de probabi-
lidades: a sentenca “ϕ e provavel”, formalizada por Pϕ, significa que a probabilidade de
ϕ e maior ou igual a x, para 12< x ≤ 1. Para levar a cabo sua investigacao, a logica de
C. L. Hamblin e dada pelo seguinte sistema axiomatico1, com a regra de Modus Ponens
1No artigo original, C. L. Hamblin introduz os axiomas em notacao polonesa. Nos traduzimos para a
78
79
(MP):
i. Um sistema axiomatico para LPC, com suas regras usuais e com a excecao de que
a substituicao nao pode criar iteracao de modalidades;
ii. Se ϕ e um teorema nao-modal, 2ϕ e um teorema;
1. 2ϕ→ ϕ;
2. 2(ϕ→ ψ)→ (2ϕ→ 2ψ);
3. 2ϕ→ Vp;
4. Vϕ→ ϕ;
5. V(ϕ→ ψ)→ (Vϕ→ Vψ);
6. Vϕ→ Pϕ;
7. P¬ϕ→ ¬Pϕ;
8. V(ϕ→ ψ)→ (Pϕ→ Pψ).
C. L. Hamblin chama as probabilidades deste sistema de epistemicas e diz que para um
sistema de probabilidades aleticas os axiomas (6) e (8) devem ser substituıdos por:
6’. 2ϕ→ Pϕ;
8’. 2(ϕ→ ψ)→ (Pϕ→ Pψ).
Embora as relacoes do operador P com os demais operadores modais sejam interessan-
tes objetos de estudo, por si so este operador possui propriedades interessantes, como, por
exemplo, o fato das seguintes sentencas nao serem teoremas do sistema de C. L. Hamblin:
• (Pϕ ∧ Pψ)→ P(ϕ ∧ ψ);
• P(ϕ→ ψ)→ (Pϕ→ Pψ).
J. P. Burgess, mais tarde, propoe em (Bur69) um sistema muito parecido com o de C.
L. Hamblin, mas que admite modalidades iteradas e abandona o operador V . Porem, J. P.
Burgess mostra que, para a interpretacao de C. L. Hamblin, que identifica provavel com
notacao apresentada.
80
probabilidade maior que 12, ambos os sistemas sao incompletos. Mais sobre estes sistemas
pode ser encontrado em (AC05) e (Yal10).
Alem destes sistemas, que representam a incerteza qualitativamente, ja foram propos-
tos sistemas com operadores modais que representam probabilidades quantitativas, como
o de A. Heifetz e P. Mongin (HM98; HM01). Este sistema e construıdo sobre a linguagem
L estendida com os infinitos operadores modais Lα, para α ∈ [0, 1]∩Q, com o pretendido
significado “a probabilidade de ϕ e, pelo menos, α” para a sentenca Lαϕ. As seguintes
abreviacoes podem ser definidas em termos de Lα:
• Mαϕ↔ L1−α¬ϕ, significando “a probabilidade de ϕ e, no maximo, α”;
• Eαϕ↔Mαϕ ∧ Lαϕ, significando “a probabilidade de ϕ e α”;
• Sαϕ↔ ¬Lαϕ, significando “a probabilidade de ϕ e menor que α”;
• Gαϕ↔ ¬Mαϕ, significando “a probabilidade de ϕ e maior que α”.
O sistema apresentado logo mais e motivado por trabalhos em logica epistemica e
fundamentos da teoria da decisao e da teoria dos jogos, por isso, A. Heifetz e P. Mongin
consideram a interpretacao subjetiva das probabilidades. Note, tambem, que estamos
usando funcoes de probabilidade sobre uma σ-algebra de conjuntos, logo, estamos falando
das funcoes da Definicao 1.1.1 com o axioma K3’ (Capıtulo 1).
A. Heifetz e P. Mongin visam axiomatizar estruturas probabilısticas da forma m =
〈Ω,A, P, v〉 em que Ω e um conjunto de mundos possıveis, A e uma σ-algebra de sub-
conjuntos de Ω, P e uma funcao que associa cada mundo possıvel de Ω a uma funcao de
probabilidade sobre A e v e uma valoracao que associa, a cada par 〈ω, ϕ〉 de um mundo
possıvel ω ∈ Ω e de uma sentenca atomica ϕ ∈ L, um valor de verdade 0 ou 1. Estas
estruturas podem ser vistas como refinamentos das estruturas da tradicional semantica
de Kripke para a logica modal.
A valoracao v de uma estrutura m obedece as mesmas regras que uma valoracao
classica para L. Assim, por exemplo, para sentencas ϕ, ψ ∈ L e para um mundo ω ∈ Ω,
temos que v(ω, ϕ ∧ ψ) = 1, se v(ω, ϕ) = 1 e v(ω, ψ) = 1. Este fato e denotado por
m,ω |= ϕ ∧ ψ.
Ja uma sentenca do tipo Lαϕ, com ϕ ∈ L, e valida em um mundo ω ∈ Ω de uma
estrutura m se P (ω)([ϕ]) ≥ α, em que
[ϕ] = ω ∈ Ω : m,ω |= ϕ.
81
Este fato e denotado por
m,ω |= Lαϕ.
Como exemplo de estrutura m, imagine um indivıduo que percebe as nuvens e a
mudanca de temperatura ao acordar pela manha mas nao sabe com certeza se ira chover
durante a tarde. A partir das sentencas A: “Chove” e B: “Ha nuvens e variacao da
temperatura”, podemos conceber quatro mundos possıveis com a valoracao v dada por:
• v(ω1, A) = 1 e v(ω1, B) = 1;
• v(ω2, A) = 1 e v(ω2, B) = 0;
• v(ω3, A) = 0 e v(ω3, B) = 1;
• v(ω4, A) = 0 e v(ω4, B) = 0.
De posse da informacao climatica, o indivıduo nao pode distinguir entre os mundos ω1 e
ω3. Independente de qual a real configuracao do mundo, ele da as seguintes probabilidades
subjetivas para ωi, i ∈ 1, 3:
• P (ωi)(ω1) = 0, 7;
• P (ωi)(ω2) = 0;
• P (ωi)(ω3) = 0, 3;
• P (ωi)(ω4) = 0.
Assim, como [A] = ω1, ω2, segue que
P (ωi)(A) = 0, 7 i ∈ 1, 3.
E, portanto,
m,ω1 |= L0,7A;
m,ω3 |= L0,7A.
Se, para todo mundo possıvel ω ∈ Ω de uma estrutura m, temos que m,ω |= ϕ,
escrevemos
m |= ϕ.
E se, para toda estrutura m, m |= ϕ, escrevemos
|= ϕ.
A. Heifetz e P. Mongin partem do seguinte sistema, baseado em R. Aumann2 (Aum99),
para axiomatizar a relacao de consequencia semantica definida acima:
2Robert Aumann foi laureado com o Premio de Ciencias Economicas em Memoria de Alfred Nobel,em 2005.
82
A0. Um sistema axiomatico para LPC ;
A1. L0ϕ;
A2. Lα(ϕ ∨ ¬ϕ);
A3. Lα(ϕ ∧ ψ) ∧ Lβ(ϕ ∧ ¬ψ)→ Lα+βϕ, α + β ≤ 1;
A4. Sα(ϕ ∧ ψ) ∧ Sβ(ϕ ∧ ¬ψ)→ Sα+βϕ, α + β ≤ 1;
A5. Lαϕ→ Sβ¬ϕ, α + β > 1;
A6. Se ` ϕ↔ ψ, entao ` Lαϕ↔ Lαψ.
Porem, este sistema nao e completo em relacao as estruturas probabilısticas. Para
completar o sistema, A. Heifetz e P. Mongin adicionam um axioma extra, um tanto mais
complicado, inspirado por propriedades avancadas das probabilidades. A discussao sobre
o completamento do sistema e encontrada em (HM98).
As relacoes entre modalidade e probabilidade ainda sao bastante incipientes e deixam
em aberto um vasto e promissor campo de investigacao.
4.2 Probabilidades multivaloradas
Esta secao apresenta uma proposta de semantica probabilıstica para um sistema nao-
classico desenvolvida por V. Marra em (Mar10). V. Marra especula que, se por um lado,
e possıvel associar probabilidades a eventos classicos, aqueles que sao formalizados por
sentencas da logica classica, por analogia tambem poderia ser possıvel associar probabi-
lidades a eventos nao classicos, que seriam eventos formalizados por sentencas de uma
logica nao-classica.
Entendendo que o trabalho de um matematico e perceber analogias, as vezes frutıferas
e, as vezes nao, V. Marra propoe o estudo de probabilidades de eventos formalizados pela
logica infinito-valorada de Godel. Exploraremos nos proximos paragrafos este novo ramo
de pesquisa incentivado por V. Marra.
A logica de Godel e definida sobre a extensao da linguagem L com mais dois sımbolos:
>, o verum, e ⊥, o falsum, que, respectivamente, representam uma sentenca sempre
verdadeira e uma sentenca sempre falsa. Chamamos esta extensao da linguagem de L>⊥.
A semantica para a logica de Godel e dada por valoracoes w : L>⊥ → [0, 1], satisfa-
zendo:
• w(>) = 1;
83
• w(⊥) = 0;
• w(ϕ ∧ ψ) = minw(ϕ), w(ψ);
• w(ϕ ∨ ψ) = maxw(ϕ), w(ψ);
• w(ϕ→ ψ) = 1, se w(ϕ) ≤ w(ψ) e w(ϕ→ ψ) = w(ψ), caso contrario;
• w(¬ϕ) = 1, se w(ϕ) = 0 e w(¬ϕ) = 0, se w(ϕ) > 0.
A consequencia semantica para esta logica e definida precisamente como no caso
classico: para ϕ, ψ ∈ L>⊥, temos ϕ `G ψ se, para toda valoracao w, se w(ϕ) = 1,
entao w(ψ) = 1.
Vejamos, agora, a discussao que V. Marra faz sobre alguns tipos de eventos forma-
lizados por esta logica, eventos godelianos, sobre os quais e proposta a associacao de
probabilidades.
Ao evento dado pela sentenca em linguagem natural “Chove” e simples atribuir um
valor de verdade: ha uma medida da quantidade de chuva chamada taxa de precipitacao,
dada em milımetros por dia - mmdia
- de forma que a sentenca “Chove” sera falsa quando
esta medida for de 0mmdia
e verdadeira quando a precipitacao for diferente disso.
Ja a sentenca, tambem em linguagem natural, “Chove muito” e mais difıcil precisar
quando e verdadeira. Nem ha um consenso sobre isso, mas podemos concordar que ela
sera verdadeira quando a medida de precipitacao for, ao menos, de 300mmdia
e sera falsa
somente quando a precipitacao for de 0mmdia
.
Alem disso, se a taxa de precipitacao e maior que 0mmdia
e menor que 300mmdia
, podemos
entender que a sentenca “Chove muito” nao sera verdadeira, mas tera uma gradacao de
verdade, um valor de verdade no intervalo aberto (0, 1).
V. Marra alega que a logica de Godel modela os seguintes eventos godelianos:
• A: “Chove muito”;
• ¬A: “Nao chove”;
• ¬¬A: “Chove”.
Dao suporte a esta alegacao as sentencas verdadeiras:
• `G ¬¬A ∨ ¬A;
• `G ¬(¬¬A ∧ ¬A).
84
Alem disso, se chove muito, certamente e verdade que chove e temos
`G A→ ¬¬A.
Por outro lado, e possıvel que esteja chovendo, sem que esteja chovendo muito. E, tambem,
temos
0G ¬¬A→ A.
Observa-se, tambem, que nao e necessario que seja o caso de chover muito ou, entao, de
nao chover. E, de fato, diferente da logica classica,
0G A ∨ ¬A.
Assim, V. Marra mostra que existe uma maneira de precisar o significado de “Chove”,
“Nao chove” e “Chove muito” com a taxa de precipitacao de forma a obedecer as leis da
logica de Godel.
Uma primeira tentativa de associar probabilidades as sentencas godelianas A, ¬A e
¬¬A e feita obedecendo os axiomas de Kolmogorov para o caso classico, da Definicao
2.2.1. Determinamos, entao:
• P (A) = q;
• P (¬A) = p1;
• P (¬¬A) = p2.
Esta associacao e valida se, e somente se:
• q, p1, p2 ∈ [0, 1];
• q ≤ p2;
• p1 + p2 = 1.
Porem, V. Marra observa que, se fizermos p′2 = p2 − q, teremos que q, p1, p′2 ∈ [0, 1] e
q + p1 + p′2 = 1, ou seja, uma distribuicao de probabilidade para tres sentencas classicas:
• P (A0) = q;
• P (A1) = p1;
• P (A2) = p′2;
85
que podem formalizar os eventos classicos:
• A0: “Chove muito”;
• A1: “Nao chove”;
• A2: “Chove, mas nao muito”.
Dessa forma, o evento “Chove” seria representado por A0 ∨ A2 e, assim, P (A0 ∨ A2) =
P (A0) + P (A2) = q + p′2 = p2. A conclusao inevitavel e que as probabilidades multivalo-
radas nao seriam de interesse, pois podemos voltar ao caso classico. Todavia, V. Marra
lembra que um evento do tipo “Chove, mas nao muito” nao pode ser representado na
logica de Godel. Os eventos godelianos A, ¬A e ¬¬A simplesmente nao tem a capacidade
linguıstica de expressar isso e, portanto, parece que a primeira tentativa falhou.
A nova proposta de V. Marra parte do fato de que segundo o criterio adotado, sempre
que chove, “Chove muito” (A) e uma sentenca verdadeira para algum grau de verdade.
Logo, se temos a associacao P (A) = 0, devemos ter tambem P (¬¬A) = 0 e o novo criterio
para que q, p1 e p2 sejam probabilidades e dador por:
• q, p1, p2 ∈ [0, 1];
• q ≤ p2;
• p1 + p2 = 1;
• Se p = 0, entao p2 = 0.
V. Marra considera que a resposta a respeito da questao desta axiomatizacao ser
apropriada para as sentencas da logica de Godel ainda nao foi dada, e abre caminho para
uma outra conexao entre probabilidade e valores de verdade.
4.3 Probabilidades paraconsistentes
Assim como no caso da secao anterior, a semantica probabilıstica para um sistema
de logica paraconsistente, proposta por J. Bueno-Soler e W. Carnielli em (BSC15), e
de desenvolvimento recente. Veremos como definir probabilidades para o sistema Ci,
uma Logica da Inconsistencia Formal (LIF)3 que, por sua vez, e uma classe de logicas
paraconsistentes.
3As Logicas da Inconsistencia Formal sao largamente conhecida pelo nome em ingles Logics of FormalInconsistency, abreviado por LFI.
86
Uma logica paraconsistente consiste de um sistema formal que nao e trivializado em
presenca de contradicoes. Em LPC, por exemplo, e valida a inferencia Pseudo Scotus, em
que, para sentencas ϕ, ψ ∈ L quaisquer,
ϕ,¬ϕ ` ψ.
Ja em um sistema paraconsistente esta inferencia nao e valida. N. C. A. da Costa foi um
dos pioneiros no estudo dos sistemas paraconsistentes. Em seu Sistemas Formais Incon-
sistentes (dC93a), N. C. A. da Costa define uma hierarquia de logicas paraconsistentes,
os chamados sistemas Cn, 1 ≤ n < ω. Mais tarde, com a organizacao de alguns sistemas
paraconsistentes na classe das LIFs, pode ser visto que a hierarquia de N. C. A. da Costa
e formada por sistemas desta classe. Mas, a proposta apresentada a seguir nao e base-
ada nos sistemas de N. C. A. da Costa e, sim, no sistema Ci, introduzido nos proximos
paragrafos.
As LIFs sao sistemas de logica propostos inicialmente por W. Carnielli que formalizam
na dimensao da linguagem-objeto a nocao de consistencia4. Assim, adicionando a L o
operador unario de consistencia , a nova linguagem chama-se L e uma formula do tipo
ϕ e lida por “ϕ e consistente”.
Em uma LIF, a inferencia Pseudo Scotus nao e valida em geral, mas uma forma mais
fraca passa a ser valida para sentencas consistentes, de modo que a logica classica pode ser
recuperada na presenca da consistencia. Esta forma mais fraca de Pseudo Scotus, tambem
conhecida pelo nome de Princıpio da Explosao, e chamada de Princıpio da Explosao Gentil
e, para sentencas ϕ, ψ ∈ L quaisquer, e dada por
ϕ, ϕ,¬ϕ ` ψ.
Portanto, uma LIF pode ser definida como um sistema paraconsistente gentilmente
explosivo com linguagem L5. Ou seja, um sistema logico em que nao vale a inferencia
Pseudo Scotus, mas e valido o Princıpio da Explosao Gentil. Formalmente, existem sen-
tencas ϕ, ψ ∈ L tais que
ϕ,¬ϕ 0 ψ,
e, para quaisquer sentencas ϕ, ψ ∈ L,
ϕ, ϕ,¬ϕ ` ψ.4Otimas referencias para estes sistemas sao (CCM03) e (Mar05).5As LIFs podem ser definidas de uma maneira mais geral sobre a linguagem L de forma a, para uma
sentenca ϕ ∈ L, ϕ denotar uma abreviacao para um conjunto de formulas. Caımos na definicao dadano texto no caso deste conjunto ser unitario, caso em que o sımbolo possa ser considerado como umoperador da linguagem, que e o caso do nosso sistema de interesse Ci.
87
O sistema Ci e o sistema de linguagem L axiomatizado por um calculo de Hilbert
com a regra Modus Ponens dado pelos seguintes esquemas:
Ax1. ϕ→ (ψ → ϕ);
Ax2. (ϕ→ ψ)→ ((ϕ→ (ψ → γ))→ (ϕ→ γ));
Ax3. ϕ→ (ψ → (ϕ ∧ ψ));
Ax4. (ϕ ∧ ψ)→ ϕ;
Ax5. (ϕ ∧ ψ)→ ψ;
Ax6. ϕ→ (ϕ ∨ ψ);
Ax7. ψ → (ϕ ∨ ψ);
Ax8. (ϕ→ γ)→ ((ψ → γ)→ ((ϕ ∨ ψ)→ γ));
Ax9. ϕ ∨ (ϕ→ ψ);
Ax10. ϕ ∨ ¬ϕ;
Ax11. ¬¬ϕ→ ϕ;
bc1. ϕ→ (ϕ→ (¬ϕ→ ψ));
ci. ¬ ϕ→ (ϕ ∧ ¬ϕ);
ccn. ¬n ϕ, para n ≥ 06.
E interessante que em uma LIF, como em Ci, por exemplo, nao e necessario que o
operador seja a abreviacao de uma sentenca, podendo ser tomado como primitivo. Isto
possibilita a investigacao do conceito de consistencia pois, em alguns sistemas, este nao e
um conceito equivalente ao de nao-contradicao7 (CCM03).
Antes de prosseguir, definimos ainda uma partıcula bottom em Ci como uma sentenca
δ ∈ L tal que, para qualquer sentenca ψ,
δ `Ci ψ.
Considerando suficiente esta pequena introducao sobre LIFs e sobre Ci, vamos apre-
sentar a semantica probabilıstica para Ci, conforme J. Bueno-Soler e W. Carnielli propoem
em (BSC15).
6Definimos, para ϕ ∈ L, ¬0ϕ = ϕ e ¬n+1ϕ = ¬¬nϕ, para n ≥ 1.7O sistema C1 de N. C. A. da Costa, diferente de Ci, e um caso em que consistencia e equivalente a
nao-contradicao. La, ϕ pode ser definido como uma abreviacao de ¬(ϕ ∧ ¬ϕ).
88
Definicao 4.3.1. Sejam as sentencas ϕ, ψ ∈ L. Uma funcao de probabilidade para Ci e
uma funcao P : L → R que satisfaz os axiomas:
• 0 ≤ P (ϕ) ≤ 1;
• Se `Ci ϕ, entao P (ϕ) = 1;
• Se ϕ e uma partıcula bottom, entao P (ϕ) = 0;
• Se ψ `Ci ϕ, entao P (ψ) ≤ P (ϕ);
• P (ϕ ∨ ψ) + P (ϕ ∧ ψ) = P (ϕ) + P (ψ).
A seguir, veremos alguns primeiros resultados sobre esta semantica probabilıstica para
Ci que, por serem semelhantes ao que temos para a semantica probabilıstica para LPC,
corroboram com a justificativa para esta investigacao. Mas, antes, vejamos mais algumas
definicoes. Dizemos que duas sentencas ϕ, ψ ∈ L sao logicamente incompatıveis se, para
qualquer sentenca γ ∈ L,ϕ, ψ `Ci γ.
Podemos, tambem, definir uma negacao classica ∼ em Ci a partir da abreviacao, para
ϕ ∈ L, ∼ ϕ = ϕ → δ, em que δ ∈ L e uma partıcula bottom de Ci. Agora, podemos
enunciar os seguintes resultados.
Teorema 4.3.1. Sejam ϕ, ψ ∈ L e P uma funcao de probabilidade para Ci. Entao:
1. P (ϕ ∧ ϕ ∧ ¬ϕ) = 0;
2. Se ϕ e ψ sao logicamente incompatıveis, P (ϕ ∨ ψ) = P (ϕ) + P (ψ);
3. P (ϕ) = 2− [P (ϕ) + P (¬ϕ)];
4. P (ϕ ∧ ¬ϕ) = P (ϕ) + P (¬ϕ)− 1;
5. P (∼ ϕ) = 1− P (ϕ);
6. P (¬ ϕ) = 1− P (ϕ).
A seguir, e definida uma relacao de consequencia logica probabilıstica para Ci e enun-
ciada a correcao e completude deste sistema em relacao a esta relacao.
Definicao 4.3.2. Sejam as sentencas ϕ1, . . . , ϕn, ψ ∈ L. A relacao de consequencia
probabilıstica, denotada por
ϕ1, . . . , ϕn |=P ψ,
89
e definida da seguinte maneira: para toda funcao P de probabilidades para Ci, tal que
P (ϕ1) = · · · = P (ϕn) = 1, temos que P (ψ) = 1.
Teorema 4.3.2 (Correcao e Completude). Sejam Γ ⊂ L e ψ ∈ L. Entao,
Γ `Ci ψ se, e somente se, Γ |=P ψ.
J. Bueno-Soler e W. Carnielli especulam, ainda, que talvez as aplicacoes mais interes-
santes das probabilidades paraconsistentes se dao no campo da epistemologia Bayesiana
por conta de uma versao paraconsistente da regra de condicionalizacao de Bayes, ja suge-
rida em (Car09). Define-se a probabilidade condicional paraconsistente da mesma forma
que a classica, para ϕ, ψ ∈ L:
P (ϕ|ψ) =P (ϕ ∧ ψ)
P (ψ).
Assim, a regra paraconsistente de condicionalizacao de Bayes e:
P (ϕ|ψ) =P (ψ|ϕ)P (ϕ)
P (ψ|ϕ)P (ϕ) + P (ψ|¬ϕ)P (¬ϕ)− P (ψ|ϕ ∧ ¬ϕ)P (ϕ ∧ ¬ϕ).
Como exemplo de aplicacao desta regra, J. Bueno-Soler e W. Carnielli vislumbram o
seguinte cenario de um teste de doping para uma droga ilegal com informacoes inconsis-
tentes:
• O teste resulta positivo em 98% dos casos em que o indivıduo faz uso frequente da
droga;
• O teste resulta negativo em 90% dos casos em que o indivıduo nunca usou ou nao
faz uso frequente da droga;
• E sabido que 10% de todos os atletas fazem uso frequente da droga;
• E sabido que 95% de todos os atletas nunca usaram ou nao fazem uso frequente da
droga;
• E sabido que, independente do atleta testado, o teste resulta positivo com probabi-
lidade de 0, 12.
Convencionamos as seguintes abreviacoes para os eventos:
• D: “O teste resultou positivo para um indivıduo”;
• C: “O teste resultou negativo para um indivıduo”;
90
• A: “O atleta testado faz uso frequente da droga”;
• ¬A: “O atleta testado nunca usou ou nao faz uso frequente da droga”.
Dessa forma, temos os seguintes valores de probabilidade:
• P (D|A) = 0, 98;
• P (C|¬A) = 0, 9;
• P (D) = 0, 12;
• P (A) = 0, 1;
• P (¬A) = 0, 95.
Note que as informacoes inconsistentes sao sobre os eventos A e ¬A. Agora, supondo
que um atleta tenha sido testado com resultado positivo, a questao que se coloca e sobre
qual a probabilidade deste atleta realmente fazer uso da droga, ou seja, o valor de P (A|D).
Com a regra paraconsistente de condicionalizacao, este valor e P (A|D) = 0, 31, muito
menor do que o valor de P (A|D) = 0, 82 dado pela regra classica de condicionalizacao de
Bayes
P (ϕ|ψ) =P (ψ|ϕ)P (ϕ)
P (ψ).
J. Bueno-Soler e W. Carnielli fazem outras comparacoes entre as regras de condi-
cionalizacao classica e paraconsistente e entendem que os exemplos sugerem uma regra
paraconsistente mais sensıvel que a regra classica.
Sobre esta proposta de probabilidades paraconsistentes, devemos ressaltar ainda al-
guns topicos. J. Bueno-Soler e W. Carnielli, no espırito de sua discussao sobre as tradicoes
de associar valores de probabilidades a conjuntos ou sentencas, como ja mencionamos nos
Capıtulos 1 e 2, propoem uma estrutura chamada espaco paraconsistente de probabilida-
des, um tanto mais complexa que a estrutura de Kolmogorov e que a generaliza. Esta
abordagem e baseada na algebra paraconsistente de conjuntos investigada por W. Carnielli
e L. P. de Alcantara em (CdA84), de forma a oferecer uma conexao entre probabilidades
paraconsistentes sobre sentencas e sobre conjuntos.
J. Bueno-Soler e W. Carnielli fazem mencao a possibilidade de uma abordagem para-
consistente modal para probabilidades, semelhante ao que vimos na primeira secao deste
capıtulo, nas linhas de A. Heifetz e P. Mongin (HM98), dado que as modalidades paracon-
sistentes ja foram estudadas, por exemplo, em (BS10) e (BSC14). E tambem mencionada
a possibilidade de uma estudo das relacoes entre as probabilidades paraconsistentes a uma
Teoria da Possibilidade Paraconsistente. A Teoria da Possibilidade e uma outra aborda-
gem formal da incerteza em cenarios de informacao incompleta (DP11) que, segundo J.
Bueno-Soler e W. Carnielli, pode ser naturalmente fundamentada sobre LIFs.
91
Por fim, mas nao menos interessante, J. Bueno-Soler e W. Carnielli lancam a possibi-
lidade de se interpretar probabilidades paraconsistentes como probabilidades subjetivas,
como as probabilidades associadas a eventos por um agente racional. Desta forma, por
exemplo, nao e necessario que uma contradicao seja um evento impossıvel aos olhos de
um agente racional, embora contradicoes consistentes tenham esta necessidade.
As probabilidades paraconsistentes se mostram como um novo e efervescente campo
de pesquisa com varias direcoes possıveis de desenvolvimento, alem do grande poten-
cial de modelar questoes filosoficas como a epistemologia Bayesiana e as probabilidades
subjetivas.
Consideracoes Finais
A principal tese que subjaz a todo este trabalho e a de que as incertezas sobre as in-
formacoes utilizadas nos raciocınios podem ser representadas por probabilidades, embora
reconhecamos que existam outras abordagens tao plausıveis quanto esta. Portanto, reca-
pitulamos de forma introdutoria as mais tradicionais nocoes do conceito de probabilidade
- classica, frequentista, subjetiva, logica e propensista - e, assim, evidenciamos ao menos
alguns dos pontos de discordancia neste assunto. Dessa forma, longe de ser um tema
concluıdo, a filosofia da probabilidade tem a capacidade de gerar diversas discussoes. As
inumeras referencias citadas no Capıtulo 1 sao pontos para prosseguir o estudo desta area.
A maneira de atrelar probabilidades no entendimento do raciocınio foi mostrada na
definicao de semantica probabilıstica, dada no Capıtulo 2. Associar valores de probabili-
dades a sentencas levanta a questao sobre qual tipo de relacao esta abordagem tem com
o famoso sistema de Kolmogorov, em que probabilidades sao associadas a conjuntos.
Uma forma de determinar esta relacao foi apresentada na Secao 2.3, mostrando que
uma valoracao probabilıstica sobre a linguagem L pode ser vista como um caso particular
de uma medida de probabilidade sobre uma algebra de conjuntos. Outra questao e se, a
partir de uma medida de probabilidade sobre uma algebra de conjuntos podemos capturar
uma valoracao probabilıstica. Hailperin mostra em (Hai96) uma possibilidade de se fazer
isto no caso em que a algebra de conjuntos considerada e definida sobre um conjunto
finito. Porem, ainda falta estabelecer como esta operacao se relaciona com a operacao
da Secao 2.3 e, ainda, como ficam os casos de medidas de probabilidade sobre conjuntos
infinitos.
Do ponto de vista logico, o raciocınio e estudado por meio da definicao de relacoes de
consequencia. Neste trabalho foram definidas tres relacoes de consequencia probabilıstica
a partir da semantica probabilıstica para logica classica. Cada uma delas tem um objetivo
e clarifica algum aspecto do raciocınio sob incerteza, da forma que analisamos. A primeira
relacao de consequencia, da Definicao 2.4.2 e a relacao de Adams, da Definicao 2.6.1, sao
equivalentes a relacao de consequencia logica classica de LPC. Ja a relacao de Hailperin,
da Definicao 3.6.1, mais voltada as aplicacoes, diferente das anteriores, nao relaciona sen-
92
93
tencas de uma linguagem, mas pares compostos por uma sentenca e um conjunto numerico
no intervalo [0, 1]. Entendemos que ainda e preciso estabelecer quais as caracterısticas
que determinam o que estamos chamando de relacao de consequencia probabilıstica.
No aprofundamento do estudo das valoracoes probabilısticas, fizemos uso das teorias
matematicas da algebra linear e da otimizacao linear. As tecnicas utilizadas, alem de
fundamentais para definir algumas instancias da relacao de Hailperin, abrem caminho para
solucao de questoes computacionais relativas as valoracoes probabilısticas, como e o caso
do problema da Satisfatibilidade Probabilıstica. Ha ainda outras questoes computacionais
que podem ser levantadas e estudadas, como a busca de criterios para escolher valoracoes
probabilısticas particulares induzidas por uma distribuicao de probabilidade.
No decorrer do estudo das valoracoes probabilısticas sentimos necessidade de dar jus-
tificativa para algumas questoes sobre as quais nao encontramos suporte na literatura.
Estas questoes foram: garantir a existencia de modelo para a teoria da Definicao 2.2.1,
ou seja, existencia de uma valoracao probabilıstica; garantir que uma distribuicao de
probabilidade para um conjunto finito de sentencas de L pode ser estendida para uma va-
loracao probabilıstica (sobre todo L); garantir que qualquer atribuicao de probabilidades
para um conjunto finito de sentencas atomicas e satisfatıvel. Acreditamos ter justificado
estas questoes de maneira construtiva, uma das contribuicoes deste trabalho embora nao
reivindiquemos pioneirismo, com as demonstracoes para os Teoremas 2.4.1, 3.4.1 e 3.4.2.
Apresentamos, no Capıtulo 4, abordagens que combinam probabilidades e logicas nao-
classicas. De um lado, mostramos as teorias que propoe probabilidades como modalidades
atraves de operadores na linguagem formal, de forma a capturar o conceito tradicional
de probabilidade. De outra lado, avaliamos neste trabalho propostas de semanticas pro-
babilısticas para logicas nao-classicas que podem estender o conceito tradicional ou ate
capturar novos conceitos de probabilidade, como as probabilidades multivaloradas e as
probabilidades paraconsistentes.
Junto com estas propostas a respeito das nocoes de probabilidade nao-classica apare-
cem as questoes filosoficas de identificar a natureza conceitual de tais nocoes, aumentando
o campo da filosofia da probabilidade. Alem disto, podem ser buscadas aplicacoes e se-
rem oferecidas novas perspectivas para outras areas, como probabilidades paraconsistentes
parecem oferecer para a epistemologia Bayesiana.
Por se tratar de novo objeto matematico, os sistemas de probabilidades nao-classicas e
as estruturas representadas por eles tambem abrem campos de investigacao tecnica logica,
matematica e computacional. O objetivo deste trabalho nao e, obviamente, responder a
este tipo de questoes, mas esclarecer sua relevancia e sua razao de ser. Se o interesse
94
levantado por tais questoes for tal que investigacoes posteriores delas se ocupem, teremos
cumprido nosso objetivo nesta dissertacao.
Referencias Bibliograficas
[AC05] H. Arlo Costa. Non-adjunctive inference and classical modalities. Journal of
Philosophical Logic, 34:581–605, 2005.
[Ada98] E. W. Adams. A Primer of Probability Logic. CSLI Publications, Stanford,
1998.
[Aum99] R. J. Aumann. Interactive epistemology. International Journal of Game
Theory, 28:263–314, 1999.
[Aye63] A. J. Ayer. Two notes on probability. The Concept of a Person and other
Essays, paginas 188–208, 1963.
[Boo54] G. Boole. The Laws of Thought. Macmillan, Londres, 1854.
[BS10] J. Bueno-Soler. Two semantical approaches to paraconsistent modalities.
Logica Universalis, 4(1):137–160, 2010.
[BSC14] J. Bueno-Soler e W. Carnielli. Experimenting with consistency. CLE e-Prints,
14(3), 2014.
[BSC15] J. Bueno-Soler e W. Carnielli. May be and may not be: paraconsistent
probabilities from the LFI viewpoint. CLE e-Prints, 15(2), 2015.
[Bur69] J. P. Burgess. Probability logic. The Journal of Symbolic Logic, 34(2):264–
274, 1969.
[Car50] R. Carnap. Logical Foundations of Probability. University of Chicago Press,
Chicago, 1950.
[Car09] W. Carnielli. Uma logica da modalidade economica? Revista Brasileira de
Filosofia, paginas 01–18, 2009.
[CCM03] W. Carnielli, M. E. Coniglio e J. Marcos. Logics of formal inconsistency.
Handbook of Philosophical Logic, paginas 1–93, 2003.
95
96
[CdA84] W. Carnielli e L. P. de Alcantara. Paraconsistent algebras. Studia Logica,
43:79–88, 1984.
[CDC07] C. A. Callioli, H. H. Domingues e R. C. F. Costa. Algebra Linear e Aplicacoes.
Atual, Sao Paulo, 2007.
[CE09] W. Carnielli e R. L. Epstein. Computabilidade, Funcoes Computaveis, Logica
e os Fundamentos da Matematica. Editora Unesp, Sao Paulo, 2009.
[Chu40] A. Church. On the concept of a random sequence. Bulletin of the American
Mathematical Society, 46(2):130–135, 1940.
[DB11] G. De Bona. Satisfazibilidade probabilıstica. Dissertacao de Mestrado, Ins-
tituto de Matematica e Estatıstica, Universidade de Sao Paulo, Sao Paulo,
2011.
[dC93a] N. C. A. da Costa. Logica Indutiva e Probabilidade. Editora da Universidade
de Sao Paulo, Sao Paulo, 1993.
[dC93b] N. C. A. da Costa. Sistemas Formais Inconsistentes. Editora UFPR, Curi-
tiba, 1993.
[DF30a] B. De Finetti. Fondamenti logici del ragionamento probabilistico. Bollettino
della Unione Matematica Italiana, 5:1–3, 1930.
[DF30b] B. De Finetti. Funzione caratteristica di un fenomeno aleatorio. Memorie
della Reale Accademia dei Lincei, 5(IV):86–133, 1930.
[DF30c] B. De Finetti. Problemi determinati e indeterminati nel calcolo della probabi-
lita. Rendiconti della Reale Accademia Nazionale dei Lincei, 9(XII):367–373,
1930.
[DF74] B. De Finetti. Theory of Probability. Wiley, New York, 1974.
[DF89] B. De Finetti. Probabilism. Erkenntnis, 31:169–223, 1989.
[DF93] B. De Finetti. On the subjective meaning of probability. De Finetti, paginas
291–321, 1993.
[DKS14] Lorenz Demey, Barteld Kooi e Joshua Sack. Logic and probability. Em
Edward N. Zalta, editor, The Stanford Encyclopedia of Philosophy. Fall 2014
edicao, 2014.
97
[DM47] A. De Morgan. Formal Logic. Taylor and Walton, Londres, 1847.
[DP11] G. Dubois e H. Prade. Possibility theory and its applications: Where do we
stand? Mathware and Soft Computing, 18(1):18–31, 2011.
[Eag10] A. Eagle. Philosophy of Probability: Contemporary Readings. Routledge,
Londres, 2010.
[Ell44] R. L. Ellis. On the foundations of the theory of probabilities. Transactions
of the Cambridge Philosophical Society, 8:1–6, 1844.
[FDB10] M. Finger e G. De Bona. A refuted conjecture on probabilistic satisfiability.
Lecture Notes in Computer Science, 6404:293–302, 2010.
[FDB11] M. Finger e G. De Bona. Probabilistic satisfiability: Logic-based algorithms
and phase transition. Proceedings of the 22nd International Joint Conference
on Artificial Intelligence, paginas 528–533, 2011.
[FDB15] M. Finger e G. De Bona. Probabilistic satisfiability: algorithms with the
presence and absence of a phase transition. Annals of Mathematics and
Artificial Intelligence, 2015.
[Fol99] G. B. Folland. Real Analysis: Modern Techniques and Their Applications.
Wiley, New York, 1999.
[Gil00] D. Gillies. Philosophical Theories of Probability. Routledge, Londres, 2000.
[Hai65] T. Hailperin. Best possible inequalities for the probability of a logical function
of events. American Mathematical Monthly, 72(4):343–359, 1965.
[Hai84] T. Hailperin. Probability logic. Notre Dame Journal of Formal Logic,
25(3):198–212, 1984.
[Hai96] T. Hailperin. Sentential Probability Logic: Origins, Development, Current
Status, and Technical Applications. Lehigh University Press, Bethlehem,
1996.
[Hai10] T. Hailperin. Logic with a Probability Semantics: Including Solutions to Some
Philosophical Problems. Lehigh University Press, Bethlehem, 2010.
[Haj01] A. Hajek. Probability, logic, and probability logic. The Blackwell Guide to
Philosophical Logic, paginas 362–384, 2001.
98
[Haj03] A. Hajek. What conditional probability could not be. Synthese, 137(3):273–
323, 2003.
[Haj12] Alan Hajek. Interpretations of probability. Em Edward N. Zalta, editor, The
Stanford Encyclopedia of Philosophy. Winter 2012 edicao, 2012.
[Ham59] C. L. Hamblin. The modal “probably”. Mind, 68(270):234–240, 1959.
[HM98] A. Heifetz e P. Mongin. The modal logic of probability. Proceedings of the
7th Conference on Theoretical Aspects of Rationality and Knowledge, paginas
175–185, 1998.
[HM01] A. Heifetz e P. Mongin. Probability logic for type spaces. Games and Eco-
nomic Behavior, 35:31–53, 2001.
[HRWW11] R. Haenni, J.-W. Romeijn, G. Wheeler e J. Williamson. Probabilistic Logics
and Probabilistic Networks. Springer, Dordrecht, 2011.
[Hum88] D. Hume. A Treatise of Human Nature. Clarendon Press, Oxford, 1888.
[Hum85] P. Humphreys. Why propensities cannot be probabilities. Philosophical Re-
view, 94:557–570, 1985.
[Hur10] Glenn H. Hurlbert. Linear Optimization: The Simplex Workbook. Springer,
2010.
[Jef39] H. Jeffreys. Theory of Probability. Oxford University Press, Oxford, 1939.
[Kar64] C. R. Karp. Languages with Expressions of Infinite Length. North-Holland
Publishing Company, Amsterdam, 1964.
[Kem55] J. Kemeny. Fair bets and inductive probabilities. Journal of Symbolic Logic,
20(3):263–273, 1955.
[Key21] J. M. Keynes. A Treatise on Probability. Macmillan, Londres, 1921.
[Kol33] A. N. Kolmogorov. Grundbegriffe der Wahrscheinlichkeitsrechnung. Julius
Springer, Berlin, 1933.
[Kol56] A. N. Kolmogorov. Foundations of the Theory of Probability. Chelsea Pu-
blishing Company, New York, 1956.
99
[Kva98] J. Kvanvig. The epistemic paradoxes. Routledge Encyclopedia of Philosophy,
1998.
[Kyb61] H. E. Kyburg. Probability and the Logic of Rational Belief. Wesleyan Uni-
versity Press, Middletown, 1961.
[Kyb97] H. E. Kyburg. The rule of adjunction and reasonable inference. The Journal
of Philosophy, 94(3):109–125, 1997.
[Lap40] P. S. Laplace. Essai philosophique sur les probabilites. Bachelier, Paris, 1840.
[Lap51] P. S. Laplace. A Philosophical Essay on Probabilities (1814). Translated from
the Sixth French Edition. Dover Publications, New York, 1951.
[Lei77] G. W. Leibniz. Towards a universal characteristic. Leibniz Selections, paginas
17–25, 1677.
[Lew76] D. Lewis. Probabilities of conditionals and conditional probabilities. Philo-
sophical Review, 85(3):297–315, 1976.
[Lyo14] A. Lyon. From Kolmogorov, to Popper, to Renyi: There’s no escaping
Humphreys’ paradox (when generalized). Chance and Temporal Asymme-
try, 2014.
[Mar05] J. Marcos. Logics of Formal Inconsistency. Fundacao Biblioteca Nacional,
Brasil, 2005.
[Mar10] V. Marra. Is there a probability theory of many-valued events? Em H Hosni
e F Montagna, editors, Probability, uncertainty and rationality, Centro di
Ricerca Matematica Ennio De Giorgi Series (No. 7)., volume 10, paginas
141–166. Edizioni della Normale, Pisa, 2010.
[Men64] E. Mendelson. Introduction to Mathematical Logic. Van Nostrand, Princeton,
1964.
[Mil] D. W. Miller. Popper’s contribution to the theory of probability and its
interpretation. The Cambridge Companion to Popper.
[Mil94] D. W. Miller. Critical Rationalism: A Restatement and Defence. Open Court,
1994.
100
[Mil96] D. W. Miller. Propensities and indeterminism. Karl Popper: Philosophy and
Problems, paginas 121–147, 1996.
[Mil04] D. W. Miller. How does probability theory generalize logic?
http://www.warwick.ac.uk/go/dwmiller/chuaqui.pdf/, 2004.
[Nil86] N. Nilsson. Probabilistic logic. Artificial Intelligence, 1(28):71–87, 1986.
[Nil93] N. Nilsson. Probabilistic logic revisited. Artificial Intelligence, (59):39–42,
1993.
[Pop35] K. R. Popper. Logik der Forschung. Julius Springer Verlag, Viena, 1935.
[Pop57] K. R. Popper. The propensity interpretation of the calculus of probability,
and the quantum theory. Observation and Interpretation, Proceedings of
the Ninth Symposium of the Colston Research Society, University of Bristol,
paginas 65–70 e 88–89, 1957.
[Pop59a] K. R. Popper. The Logic of Scientific Discovery. Hutchinson & Co., Londres,
1959.
[Pop59b] K. R. Popper. The propensity interpretation of probability. British Journal
for the Philosophy of Science, 10:25–42, 1959.
[Pop83] K. R. Popper. Realism and the Aim of Science. Hutchinson, 1983.
[Pop90] K. R. Popper. A World of Propensities. Thoemmes, Bristol, 1990.
[Ram31] F. P. Ramsey. Truth and probability. Foundations of Mathematics and other
Essays, paginas 156–198, 1931.
[Rei49] H. Reichenbach. The Theory of Probability. University of California Press,
Berkeyley, 1949.
[Ren55] A. Renyi. On a new axiomatic theory of probability. Acta Mathematica
Academiae Scientiarum Hungarica, 6:285–335, 1955.
[RF10] H. Royden e P. M. Fitzpatrick. Real Analysis. Pearson, 2010.
[Sal66] W. Salmon. The Foundations of Scientific Inference. University of Pittsburgh
Press, Pittsburgh, 1966.
[Sho01] J. R. Shoenfield. Mathematical Logic. Addison-Wesley, Boston, 2001.
101
[Sky10] B. Skyrms. Choice and Chance. Wadsworth, Belmont, 2010.
[Sup66] P. Suppes. Probabilistic inference and the concept of total evidence. Aspects
of Inductive Logic, paginas 49–65, 1966.
[Ven66] J. Venn. The Logic of Chance: An Essay on the Foundations and Province of
the Theory of Probability, with Especial Reference to Its Application to Moral
and Social Science. Macmillan, Londres e Cambridge, 1866.
[VM19] R. Von Mises. Grundlagen der Wahrscheinlichkeitsrechnung. Mathematische
Zeitschrift, 5:52–100, 1919.
[VM57] R. Von Mises. Probability, Statistics and Truth. Macmillan, New York, 1957.
[VM64] R. Von Mises. Mathematical Theory of Probability and Statistics. Academic
Press, New York, 1964.
[Voo99] F. Voorbraak. Probabilistic belief change: Expansion, conditioning and cons-
training. Uncertainty in Artificial Intelligence: Proceedings of the Fifteenth
Conference (UAI-1999), paginas 655–662, 1999.
[Whe07] G. Wheeler. A review of the lottery paradox. Probability and Inference:
Essays in Honour of Henry E. Kyburg, Jr., paginas 1–31, 2007.
[Wil96] T. Williamson. Knowing and asserting. Philosophical Review, 105(4):489–
523, 1996.
[Wil02] J. Williamson. Probability logic. Handbook of the Logic or Argument and
Inference: The Turn Towards the Practical, paginas 397–424, 2002.
[Yal10] S. Yalcin. Probability operators. Philosophy Compass, 5:916–937, 2010.
Apendice A
Formas Normais Disjuntivas
Logo no inıcio do estudo das valoracoes probabilısticas ja percebemos a importancia
tecnica de utilizar as Formas Normais Disjuntivas das sentencas de L. Neste apendice
se encontram os resultados sobre este assunto necessarios para o desenvolvimento desta
dissertacao.
A.1 Definicoes
Definicao A.1.1. Um literal e uma sentenca atomica ou uma negacao de uma sentenca
atomica.
Definicao A.1.2. Uma descricao de estado e uma conjuncao de literais.
Definicao A.1.3. Uma forma normal disjuntiva (FND) e uma disjuncao de descricoes
de estado.
Sao exemplos de FNDs:
• (A ∧B) ∨ (¬A ∧B) ∨ (A ∧ ¬B) ∨ (¬A ∧ ¬B)
• (A ∧ ¬B ∧ ¬C) ∨ (A ∧B ∧ ¬C)
• A ∨ (¬A ∧ C)
Chamamos, neste texto, de descricao de estado de um conjunto (finito) de sentencas
atomicas A1, . . . , An uma descricao de estado da forma ±A1 ∧ · · · ∧ ±An, em que ±Ae o literal A ou o literal ¬A.
A.2 Resultados
Lema A.2.1. As descricoes de estado de um conjunto α = A1, . . . , An sao duas a duas
logicamente incompatıveis.
102
103
Demonstracao. Para uma descricao de estado de α ser validada por uma valoracao v,
todos os seus literais devem ter valor 1 por v (dado que uma descricao de estado e uma
conjuncao de literais). E, para duas descricoes de estado de α se diferirem, deve existir
ao menos uma sentenca Ai ∈ α que se comporta como literal Ai em uma das descricoes
e como literal ¬Ai em outra. Logo, se v(Ai) = 1, devemos ter v(¬Ai) = 0 e vice versa.
Portanto, estas descricoes de estado sao logicamente incompatıveis.
O proximo teorema e um resultado fundamental para o estudo das valoracoes proba-
bilısticas. Em sua demonstracao, encontramos um procedimento para calcular a FND de
uma sentenca qualquer que nao seja uma contradicao.
Teorema A.2.1. Toda sentenca de L e equivalente a uma FND.
Demonstracao. Se ϕ ∈ L for uma contradicao, basta representa-la por A∧¬A. Seja ϕ ∈ Luma sentenca que nao seja uma contradicao. Vamos construir uma FND equivalente a
ϕ formando suas descricoes de estado com literais referentes as sentencas atomicas que
compoem ϕ. Para cada linha da tabela-verdade de ϕ que tem valor 1, construımos uma
descricao de estado com literais sem negacao para aquelas sentencas atomicas que tem
valor 1 na linha em questao e com literais negados para as sentencas que tem valor 0.
Assim, por exemplo, para a sentenca A→ B, que tem tabela-verdade:
A B A→ B1 1 11 0 00 1 10 0 1
temos a seguinte forma normal disjuntiva:
(A ∧B) ∨ (¬A ∧B) ∨ (¬A ∧ ¬B).
Para finalizar, dada uma valoracao v tal que v(ϕ) = 1, vemos que a descricao de estado
da FND construıda para ϕ relacionada a linha da tabela-verdade relativa a valoracao v
tambem toma valor 1. Por outro lado, se v(ϕ) = 0, a descricao de estado relacionada
a esta linha da tabela-verdade nao esta na FND construıda. Esta descricao de estado
tomaria valor 1 por v e, pelo Lema A.2.1, todas as outras tomam valor 0. Portanto,
v(ϕ) = 0. E, assim, esta demonstrada a equivalencia.
E importante notar que uma sentenca pode ter mais de uma FND. Quando for ne-
cessario enfatizar que a FND a qual nos referimos e aquela construıda como no teorema
anterior, a chamaremos de forma normal disjuntiva canonica (FND canonica). O proximo
104
teorema trata de duas propriedades importantes das FNDs sendo que a segunda e sobre
FNDs canonicas.
Teorema A.2.2. Seja o conjunto de sentencas atomicas α = A1, . . . , An e a sentenca
ϕ ∈ L (que nao seja contradicao) composta pelos elementos de α. Segue que:
1. A FND formada pela disjuncao de todas as descricoes de estado de α e uma sentenca
valida de LPC.
2. A FND canonica de ϕ e unica a menos de permutacao das descricoes de estado que
a formam e permutacao de literais em cada descricao de estado.
Demonstracao. 1. Seja v uma valoracao de LPC tal que v(Ai) = ai ∈ 0, 1, i =
1, . . . , n. Se v(Ai) = 0, denotaremos A′i = ¬Ai e se v(Ai) = 1, denotaremos A′i = Ai.
Logo, v(A′1 ∧ · · · ∧ A′n) = 1 e, portanto, a FND em questao tem valor 1 por v.
2. Supondo que exista outra FND canonica para ϕ, esta FND deve ser composta
por pelo menos uma descricao de estado do conjunto de sentencas atomicas de ϕ
que nao esta na FND construıda pelo metodo do Teorema A.2.1 ou, entao, deve
omitir alguma descricao de estado que esta na construcao. Porem, se tirarmos
uma descricao de estado da construcao, havera uma linha na tabela-verdade que
representa uma valoracao v e que da valor 1 a esta descricao omitida. Pelo Lema
A.2.1, todas as outras descricoes de estado de α terao valor 0 por v e, entao, a nova
FND tera valor 0 por v, que e uma contradicao. Por outro lado, se colocarmos mais
uma descricao de estado na construcao do Teorema A.2.1, tambem pelo Lema A.2.1,
qualquer valoracao que valida esta descricao de estado, tem valor 0 para todas as
outras e, alem disso, esta valoracao tem valor 0 para a sentenca ϕ, pela construcao
do Teorema A.2.1.
Em algumas situacoes, ao inves de usarmos a FND canonica de uma sentenca ϕ,
usamos a FND que contem, alem das sentencas atomicas que a compoem, algumas outras
sentencas atomicas. Para verificar a equivalencia, basta substituir cada DE de uma FND
por uma expressao do tipo tratado pelo teorema a seguir, cada vez adicionando uma nova
sentenca atomica.
Teorema A.2.3. Se ∆ e uma descricao de estado de α e C /∈ α e uma sentenca atomica,
entao ∆ e equivalente a (∆ ∧ C) ∨ (∆ ∧ ¬C).
105
Demonstracao. Seja v uma valoracao de LPC. Se v(∆) = 0, entao, v(∆ ∧ C) = v(∆ ∧¬C) = 0. Se v(∆) = 1 e v(C) = 1, segue que v(∆ ∧ C) = 1 e temos o resultado. Caso
v(C) = 0, temos v(¬C) = 1 e tambem temos o resultado.
Algumas vezes, para testar se uma descricao de estados K faz parte da FND de uma
sentenca ϕ, simplesmente verificamos se ` K → ϕ. Este teste se justifica pelo seguinte
teorema.
Teorema A.2.4. Sejam ϕ ∈ L uma sentenca e K1, . . . , Kn um conjunto de sentencas
atomicas de forma que, para um conjunto de ındices I ⊂ 1, . . . , n, tenhamos ` ϕ ↔∨i∈I Ki. Entao, se ` Ki → ϕ, segue que i ∈ I. E, se ` Ki → ¬ϕ, i /∈ I.
Demonstracao. Para uma valoracao v tal que v(Ki) = 1, se ` Ki → ϕ, segue que v(ϕ) = 1.
Alem disso, pelo Lema A.2.1, terıamos v(Kj) = 0 para todos os outros j 6= i. Portanto,
como ` ϕ↔∨i∈I Ki, segue que i ∈ I.
Por outro lado, com a mesma valoracao, ainda temos que v(ϕ) = 1. Logo, se ` Ki →¬ϕ, terıamos uma contradicao, pois terıamos v(¬ϕ) = 1, o que nao pode ocorrer em uma
valoracao.
Apendice B
Otimizacao Linear
Este apendice e dedicado a introduzir os Problemas de Otimizacao Linear, bem como
os resultados sobre estes problemas que sao utilizados neste texto, especificamente no
Capıtulo 3. Nossa referencia e (Hur10).
B.1 Problemas de Otimizacao Linear
Um dos principais metodos apresentados nesta dissertacao, no Capıtulo 3 e baseado
na resolucao de um Problema de Otimizacao Linear (POL). Primeiro, um problema de
otimizacao e o problema de encontrar o valor maximo ou o valor mınimo de uma funcao,
chamada funcao objetivo, dadas possıveis restricoes. Este valor maximo ou mınimo, se
encontrado, e dito solucao otima do problema de otimizacao.
Por exemplo, seja f : R→ R uma funcao dada por f(x) = x2 − 1. Esta funcao atinge
seu valor mınimo em x = 0, pois f(0) = −1 e, para qualquer x ∈ R, f(x) ≥ −1. Porem,
f nao possui um valor maximo, pois para qualquer x0 ∈ R, sempre existe x1 ∈ R tal que
f(x1) > f(x0).
Agora, se assumirmos alguma restricao no domınio da funcao f , por exemplo, se nos
interessar somente os valores x tais que x ≤ 7 e x > −12, o mınimo de f continua sendo
−1, mas, agora, ela passa a possuir um valor maximo para x = 7, a saber, f(7) = 46. E,
para qualquer x tal que −12< x ≤ 7, f(x) ≤ f(7).
Um POL e um problema de otimizacao em que a funcao objetivo e suas restricoes
sao lineares. A forma standard de um POL e dada por uma funcao objetivo do tipo
z : Rn → R, tal que
z = c1x1 + · · ·+ cnxn,
106
107
com ci ∈ R, i = 1, . . . , n, e por restricoes
a11x1 + · · · + a1nxn ≤ b1...
...am1x1 + · · · + amnxn ≤ bm
com aij ∈ R, de forma que, para i fixo e algum j, aij 6= 0, e com bi ∈ R, i = 1, . . . ,m, e,
tambem, pela restricao
xi ≥ 0, i = 1, . . . , n.
Se considerarmos a matriz
A =
a11 · · · a1n...
. . ....
am1 . . . amn
,o vetor linha c = [c1, . . . , cn] e os vetores coluna x = [x1, . . . , xn]T e b = [b1, . . . , bm]T ,
podemos escrever, na forma matricial, a funcao objetivo como
z = cx
e as restricoes como
Ax ≤ b
x ≥ 0.
Chamamos de sistema associado as restricoes anteriores ao sistema formado por todas as
equacoes de
Ax = b
x = 0.
Chamamos um ponto x∗ = [x∗1, . . . , x∗n]T ∈ Rn satisfatıvel, se ele satisfaz as restricoes
do problema considerado e insatisfatıvel, caso contrario. Um POL e dito satisfatıvel se a
regiao determinada por suas restricoes tiver pontos satisfatıveis e, se nao houver, o POL
e dito insatisfatıvel. Pode haver POLs que nao possuem pontos satisfatıveis e, portanto,
nao possuem solucao.
B.2 Problema Dual
A um POL de maximizar uma funcao
z = cx
108
com as restricoes
Ax ≤ b
x ≥ 0,
esta associado um outro POL, agora de minimizar a funcao
w = bTy,
em que y = [y1, . . . , ym]T , com as restricoes
ATy ≥ cT
y ≥ 0.
Este segundo POL e o Problema Dual do POL standard original e a relacao entre eles e
dada pelo seguinte resultado, chamado Teorema Dual, demonstrado em (Hur10).
Teorema B.2.1. Se um POL possui solucao otima z∗, o seu problema dual tambem possui
solucao otima w∗ e, ainda, z∗ = w∗.
B.3 Solucoes
As restricoes de um POL satisfatıvel determinam uma regiao de Rn de todos os seus
pontos satisfatıveis chamada poliedro. Vejamos algumas propriedades dos pontos que sao
solucoes de POLs.
Dizemos que um ponto x∗ = [x∗1, . . . , x∗n]T de um poliedro e um ponto extremo deste
poliedro, quando x for a unica solucao de um algum subsistema formado por exatamente
n equacoes do sistema associado as restricoes que determinam o poliedro.
Dizemos que um poliedro e limitado, se existir um numero K ∈ Z de modo que, para
todos os pontos x = [x1, . . . , xn]T deste poliedro, tivermos que
|xi| ≤ K (i = 1, . . . , n).
Alguns poliedros que nos interessam neste texto sao limitados ou possuem pontos extremos
e a importancia disto e vista pelos resultados seguintes, cujos roteiros para demonstracao
podem ser encontrados em (Hur10).
Teorema B.3.1. Se o poliedro determinado pelas restricoes de um POL satisfatıvel for
limitado, entao a solucao deste POL estara em um ponto extremo do poliedro.
109
Teorema B.3.2. Se o poliedro determinado pelas restricoes de um POL possuir um ponto
extremo e este POL possuir solucao, entao a solucao deste POL estara em um ponto
extremo do poliedro.
Portanto, um metodo de resolucao de POLs satisfatıveis na forma standard cujas
restricoes determinam regioes limitadas pode ser dado pelo seguinte algoritmo:
1. Encontrar todos os pontos extremos x∗1, . . . ,x∗j do poliedro determinado pelas res-
tricoes:
(a) Procurar as solucoes unicas de todos os subsistemas de n equacoes, dentre as
equacoes de Ax = b e x = 0;
(b) Determinar se estas solucoes unicas sao pontos do poliedro do problema tes-
tando se eles satisfazem as restricoes Ax ≤ b e x ≥ 0;
2. Procurar o maior elemento dentre cx∗1, . . . , cx∗j . Este elemento e a solucao otima.
Este nao e o metodo mais eficiente de resolucao de POLs, mas serve para podermos,
ao menos, exibir solucoes para as questoes que tratamos neste texto. Outros metodos
de resolucao, como o conhecido Metodo Simplex, podem ser encontrados na bibliografia
recomendada.