curso de inteligência artificial - parte 3 -

Incerteza, Cap 13 Ronaldo F. Ramos, Dr. [email protected]

Adaptado de : aima.cs.berkeley.edu

Roteiro ! Incerteza

! Probabilidade

! Sintaxe e Semântica

! Inferência

! Independência e regra de Bayes

Incerteza Seja a ação At = seguir para o aeroporto chegando t minutos antes do vôo Esta ação At nos deixará pontualmente? Problemas:

1.  observalidade parcial (estado da rodovia, planos de outros motoristas, etc.) 2.  sensores de ruído (relatórios com situação do tráfego) 3.  incerteza nos resultados das ações (pneu furado, etc.) 4.  complexidade excessiva da modelagem e previsão do tráfego.

Consequentemente uma abordagem puramente lógica poderia:

1.  correr risco de falsa afirmativa: “A25 me deixará à tempo no aeroporto”, ou 2.  levará a conclusões muitos fracas para tomada de decisões:

“A25 me deixará lá a tempo se não houver acidentes na ponte, se não chover e

meus pneus permanecerem intactos etc etc.” (A1440 pode ser dito razoavelmente que chegarei a tempo, mas eu teria que

permanecer a noite toda no aeroporto …)

Métodos para tratamento da Incerteza !  Logica Default ou não monotônica:

!  Assumir que meu carro não terá um pneu furado !  Assumir que A25 funcionará a não ser que seja contradita pela

evidência !  Questões: Que suposições são razoáveis? Como tratar

contradições?

!  Regras com graus fictícios: !  A25 |→0.3 chegar a tempo !  Irrigador |→ 0.99 GramaMolhada !  GramaMolhada |→ 0.7 Chuva

!  Questões: Problemas com combinações, ex., Irrigador causa chuva??

!  Probabilidade

!  Modela o grau de crença do agente !  Dada uma evidência disponível, !  A25 me deixará a tempo com probabilidade 0.04

Probabilidade Assertivas probabilisticas sumarizam os efeitos de :

!  Preguiça: falha em enumerar exceções, qualificações, etc. !  Ignorância: falta de fatos relevantes, condições iniciais, etc.

Probabilidade Subjetiva: !  Probabilidades relatam proposições sobre o estado

de conhecimento do agente !  ex. P(A25 | não houve acidentes) = 0.06

Isto não são afirmações sobre o mundo.

Probabilidades de proposições podem mudar de acordo com novas evidências: ex., P(A25 | não houve acidentes as 5h)= 0.15

Tomando decisões em face da incerteza Suponha que acreditemos que:

P(A25 me deixará a tempo| …) = 0.04 P(A90 me deixará a tempo|…) = 0.70 P(A120 me deixará a tempo| …) = 0.95 P(A1440 me deixará a tempo| …) = 0.9999

!  Que ação devo escolher?

Dependerá de minhas preferências por vôos não disponíveis vc tempo gasto esperando, etc. !  Teoria da Utilidade é usada para representar e inferir

preferências !  Teoria da Decisão = Teoria da Probabilidade + Teoria da

Utilidade

Sintaxe !  Elemento Básico: variável aleatória

!  Semelhante a logica proposicional: mundos possíveis definidos pela atribuição de valores a variáveis aleatórias.

!  Variables aleatórias booleanas ex., Cárie (tenho cárie?)

!  Variáveis aleatórias discretas ex., Tempo pode ser: <ensolarado,chovendo,nublado,nevando>

!  Valores de domínios devem ser exautivos e mutuamente exclusivos

!  Proposição elementar construída pela atribuição de um valor a A !  Proposições complexas formadas a partir de proposições elementares

e conectivos lógicos padrões. ex. Tempo = ensolarado ∨ Cárie = falso

variável aleatória: ex., Tempo = ensolarado, Cárie = falso (abreviado como cárie)

Sintaxe

! Evento Atômico: Uma especificação completa do estado do mundo sobre o qual o agente é incerto

!  Ex. Se o mundo consiste de apenas duas variáveis aleatórias booleanas Cárie e DorDeDente, então existem 4 possíveis eventos atômicos:

Cárie = falso ∧ DorDeDente = falso Cárie = falso ∧ DorDeDente = verdade Cárie = verdade ∧ DorDeDente = falso Cárie = verdade ∧ DorDeDente = verdade

! Eventos atômicos são mutualmente exclusivos e exaustivos

Axiomas da Probabilidade ! Para quaisquer proposições A, B

! 0 ≤ P(A) ≤ 1 ! P(verdade) = 1 e P(falso) = 0 ! P(A ∨ B) = P(A) + P(B) - P(A ∧ B)

Probabilidade a Priori !  Probabilidade a priori ou probabilidade incondicional de proposições

ex., P(Cárie = verdade) = 0.1 e P(Tempo = ensolarado) = 0.72 corresponde a uma crença inicial antes da chegada de qualquer evidência nova.

!  Distribuição de Probabilidade dá valores para todas possíveis atribuições:

P(Tempo) = <0.72,0.1,0.08,0.1> (normalizado, i.e., soma é 1)

!  Distribuição de probabilidade conjunta para um conjunto de variáveis aleatórias dá a probabilidade de todos os eventos sobre estas variáveis

!  Ex.

P(Tempo,Cárie) = uma matriz 4 × 2 de valores:

Tempo = sol chuva nuvens neve Cárie = verdade 0.144 0.02 0.016 0.02 Cárie = falso 0.576 0.08 0.064 0.08

!  Toda questão a cerca do domínio pode ser respondida pela distribuição de probabilidade conjunta

Probabilidade Condicional !  Probabilidade Condicional ou posterior

!  ex.P(cárie | dordedente) = 0.8 i.e., dado que dordedente é tudo o que sei.

!  Se sabemos mais, ex. que cárie é dada. Então temos:

P(cárie | dordedente,cárie) = 1 !  Novas evidências podem ser irrelevantes, permitindo a

simplificação, ex., P(cárie| dordedente, ensolarado) = P(cárie| dordedente) = 0.8

!  Este tipo de inferência, sancionada pelo conhecimento do domínio é crucial

Probabilidade Condicional !  Definição.

P(a | b) = P(a ∧ b) / P(b) se P(b) > 0

!  A regra do produto dá uma formulação alternativa: P(a ∧ b) = P(a | b) P(b) = P(b | a) P(a)

!  Uma versão geral serve para distribuições inteiras. Ex.,

P(Tempo,Cárie) = P(Tempo | Cárie) P(Cárie) !  (Visto como um conjunto de 4 × 2 equações, não é

multiplicação de matrizes)

!  Regra da Cadeia é derivada por sucessivas aplicações da regra do produto: P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1) = … = πi=1

n P(Xi | X1, … ,Xi-1)

Inferência por enumeração !  Começa com a distribuição de probabilidade

conjunta: !  Para qualquer proposição soma-se o eventos

atômicos onde a mesma é verdade. P(carie=verdade)=0,108+0,012+0,072+0,008=0,2 (Chamada de probabilidade marginal) Podemos também calcular P(carie v dordedente) =

0,108+0,012+0,072+0,008+0,016+0,064=0,28. etc.

0,108 0,012 0,072 0,0080,016 0,064 0,144 0,576

DordeDente ~DordeDenteBoticão ~Boticão Boticão ~Boticão

Cárie~Cárie

Inferência por enumeração !  Iniciar com a distribuição conjunta: !  Pode calcular também as probabilidades

condicionais: P(¬cárie | dordedente) = P(¬cárie ∧ dordedente) P(dordedente) = 0.016+0.064 0.108 + 0.012 + 0.016 + 0.064 = 0.4

Normalização

!  Denominador pode ser visto como uma constante de normalização

P(Cárie | DorDeDente) = α P(Cárie,DorDeDente) = α [P(Cárie,DorDeDente,Boticão) + P(Cárie,DorDeDente,¬

Boticao)] = α [<0.108,0.016> + <0.012,0.064>] = α <0.12,0.08> = <0.6,0.4>

Idéia geral: Calcular a distribuição sobre a variável de consulta fixando as variáveis de evidência e somando as variáveis ocultas.

Inferência por enumeração Normalmente estamos interessandos:

Na distribuição conjunta posterior das variáveis de consulta Y sendo dados valores específicos (e) para as variáveis de evidência E

Sejam as variáveis ocultas H = X - Y - E Então a totalização esperada dos valores da distribuição conjunta é

realizada pela soma das variáveis ocultas: P(Y | E = e) = αP(Y,E = e) = αΣhP(Y,E= e, H = h)

!  Os termos são partes da distribuição conjunta pelo fato de que Y, E e

H juntos são exaustivos dentro do conjunto de variáveis aleatórias.

Problemas óbvios: 1.  Complexidade do pior caso é O(dn) onde d é a maior aridade (domínio da

variável aleatória) 2.  Complexidade de espaço é O(dn) para armazenamento da distribuição

conjunta 3.  Como encontrar valores para elementos de entrada em ordem O(dn)?

Independência !  A e B são independentes sse:

P(A|B) = P(A) ou P(B|A) = P(B) ou P(A, B) = P(A) P(B) P(DorDeDente, Boticão, Cárie, Tempo)

= P(DorDeDente, Boticão, Cárie) P(Tempo)

!  32 entradas foram reduzidas a 12; !  Para n moedas independentes (não “viciadas “) teríamos O(2n) →O(n) (! reduzida)

!  Independência Absoluta é poderosa, mas rara. !  Odontologia é um campo amplo com centenas de variáveis ,

nenhuma das quais é independente. O que fazer?

Independência Condicional !  P(DorDeDente, Cárie, Boticão) tem 23 – 1 = 7 entradas

independentes

!  Se temos cárie, a probabilidade de ter que usar o boticão não depende do fato de termos dor de dente. (1) P(boticão | dordedente, cárie) = P(boticão | cárie)

!  O memos ocorre se não temos cárie: (2) P(boticão | DorDeDente,¬cárie) = P(boticao | ¬cárie)

!  Boticao é condicionalmente independente de DorDeDente dado Cárie

!  Declarações equivalentes:

P(DorDeDente | Boticao, Cárie) = P(DorDeDente | Cárie) P(DorDeDente, Boticao | Cárie) = P(DorDeDente | Cárie) P(Boticao| Cárie)

Independência condicional-cont !  Escreve-se uma Distribuição conjunta completa

usando a regra da cadeia.

P(DorDeDente, Boticão, Cárie) = P(DorDeDente | Boticão, Cárie) P(Boticão, Cárie) = P(DorDeDente | Boticão, Cárie) P(Boticão | Cárie) P(Cárie) = P(DorDeDente | Cárie) P(Boticão | Cárie) P(Cárie)

I.e., 2 + 2 + 1 = 5 números independentes

!  Na maioria dos casos a independência reduz o tamanho da representação da distribuição conjunta de exponencial para linear em n .

Regra de Bayes e Independência Condicional

P(Cárie | DorDeDente ∧ Boticão) = αP(DorDeDente ∧ Boticão | Cárie) P(Cárie) = αP(DorDeDente | Cárie) P(Boticão | Cárie) P(Cárie)

!  Modelo de Bayes Ingênuo (Naïve): (IDIOTA) P(Causa,Efeito1, … ,Efeiton) = P(Cause) πiP(Effecti|Cause)

Número total de Parâmetros é linear em n

Redes Bayesianas !  Def: Notação gráfica para declarações de independência

condicional e consequentemente para uma especificação

compacta de distribuições conjuntas complexas

!  Sintaxe:

!  Um conjunto de “nós”, um por variável !  Um grafo direcional acíclico mostrando influencias diretas !  Uma distribuição condicional para cada nó dado seu pais

P (Xi | Pais (Xi))

!  No caso mais simples, a distribuição condicional é representada como uma tabela de

prabilidade condicional dando a distribução sobre Xi para cada combinação de valores dos

pais

Exemplo de Rede Bayesiana

!  A topologia da rede codifica as declarações de independência condicional:

!  Tempo é independente de outras variáveis

!  DorDeDente and Boticão são condicionalmente

independentes dada cárie

Exemplo do Alarme

Alguém estando no trabalho recebe o telefone do vizinho João Rapadura dizendo que o alarme da casa está tocando, mas a vizinha do outro lado Maria Amargura não ligou.Algumas vezes o alarme é disparado por pequenos tremores de terra. Será que tem um ladrão na casa? Variáveis: Ladrão, Terremoto, Alarme,JoaoLiga, MariaLiga A rede reflete o conhecimento "causal":

Um ladrão(burglar) pode disparar o alarme Um terremoto (earthquake) pode disparar o alarme O Alarme pode fazer Maria(Mary) telefonar O Alarme pode fazer Joao(John) telefonar

A rede!

Compactação da Rede !  Uma tabela com variáveis aleatórias booleanas Xi com k

parentes booleanos terá 2k linhas para a combinação de valores

dos pais

!  Cada linha requererá um valor p para Xi = Verdade

(o valor para Xi = false é 1-p)

!  Se cada variável não tem mais que k pais, a rede completa fará

O(n · 2k) valores

!  I.e., cresce linearmente com n, vs. O(2n) para a distribuição

conjunta total

!  Para a rede do alarme teremos 1 + 1 + 4 + 2 + 2 = 10 valores

(vs. 25-1 = 31)

Semântica da Rede A distribuição conjunta total é definida como o produto

das distribuições condicionais locais

P (X1, … ,Xn) = πi = 1 P (Xi | Pais(Xi))

e.g., P(j ∧ m ∧ a ∧ ¬b ∧ ¬e)

= P (j | a) P (m | a) P (a | ¬b, ¬e) P (¬b) P (¬e)

Rede não puramente causal !  Vamos usar o exemplo do alarme com a seguinte ordem de

inserção dos nós: !  MaryCalls, JohnCalls, Alarme, Roubo e Terremoto.

Roubo Terremoto

Alarme

JohnCalls

MaryCalls

Redes não puramente causais

" Problemas: "  A figura possui duas conexões a mais "  julgamento não natural e difícil das probabilidades

"   Tendo uma rede puramente causal, teríamos um número menor de conexões

Tipos de Inferência em Redes Bayesianas

Roubo Alarme JohnCalls

Evidência Query

JohnCalls Alarme Roubo

Evidência Query

Causal – Causa para efeito " P(JohnCalls/Roubo) = 0,86

Diagnóstico – Efeito para Causa "  P(Roubo/JohnCalls) = 0,016

Roubo Alarme Terremoto

Query Evidência

!  Intercausal (entre causas com um efeito comum) !  P(Roubo/Alarme) = 0,376 !  P(Roubo/Alarme ∧Terremoto) = 0,373

Tipos de Inferências

"  Mista (combinando duas ou mais das de cima) "   P(Alarme/JohnCalls ∧¬Terremoto) = 0,03 "   Este é um uso simultâneo de inferência causal e diagnóstico.

JohnCalls Alarme Terremoto Evidência Evidência Query

Independência de Novo •  Dependências •  Intuitiva. •  Dois nós conectados

influenciam um ao outro simetricamente.

•  Independências •  Exemplo: I (J;M|A),

I(B;E) •  Outros I(B;E|A)? •  -- d-seperation. •  (Separação Direcional)

Separação -d

M e B são separados-d Dado A (Independentes)

B A M

Separação –d - Divergente

M e J são separados-d Dado A (Independentes)

A

J M

Influencia pode ocorrer de J em M se não conhecemos A

mas I(J;M|A)

Separação –d – convergente

E e B são separados-d NÃO Dado A (Independentes)

E B

A

E não pode influenciar B dado que A não é conhecido.

I(E;B)

Consultas (Query)

∑AE

BPJMABEP,

)(/)),,,,((

Informações interessantes das probabilidades conjuntas: Qual a probabilidade de ambos Maria e John ligarem se acontecer um roubo? P(M, J|B) Qual a mais provável explicação para o fato que Maria Ligou? Pode ser Respondido por Inferência na RB P(M,J|B)=P(B, M, J)/P(B) =

•  Idéia: Somar uma variável por vez, gerando uma nova distribuição em relação as outras variáveis conectando com a variável eliminada.

•  Quando Elimina-se E gera-se uma distribuição de A e B •  Alta Complexidade (NP-HARD) usar Algoritmos de Formação

de Agrupamentos /Árvores de Junção

Algoritmo de Eliminação de Variáveis – Inferência Exata

Inferência Aproximada ! Amostagem direta ! Amostragem de rejeição ! Ponderação de probabilidade ! Simulação de Cadeias de Markov-

Algoritmo CMMC (Cadeia de Markov Monte Carlo)

Modelos Temporais

R t-1 P(Rt)

V 0,7

F 0,3

R t-1

U t-1

R t

U t

R t+1

U t +1

R t P(Ut)

V 0,9

F 0,2

Modelos Temporais

Hipótese de Markov: Estado atual depende apenas de um histórico finito de estados anteriores. Processos de Markov ou Cadeias de Markov Processo de Markov de Primeira Ordem:

P(Xt|X0:t-1) = P(Xt|Xt-1)

Usos: Filtragem, monitoramento e suavização

Modelos Temporais

! Redes bayesianas dinâmicas !  Casos especiais:

!  MOM – Modelos Ocultos de Markov !  Filtros de Kalman !  Etc.

! Aplicações em PDS/Voz, Imagem, etc

! Fica para a próxima .........................

curso de inteligência artificial - parte 3 -

Education