ambientes e arquiteturas de agentes

Ambientes e Arquiteturas de AgentesAmbientes e Arquiteturas de Agentes

Jacques RobinGeber Ramalho

CIn-UFPE

2

Bem-vindos ao “Mundo do Wumpus”Bem-vindos ao “Mundo do Wumpus”

Wumpus

Agente caçador de tesouros

3

O Mundo do Wumpus: O Mundo do Wumpus: formulação do problemaformulação do problema

Ambiente: paredes, Wumpus, cavernas, buracos, ouro

Estado inicial: agente na caverna (1,1) com apenas uma flecha Wumpus e buracos em cavernas quaisquer

Objetivos: pegar a barra de ouro e voltar à caverna (1,1) com vida

4

O Mundo do Wumpus: O Mundo do Wumpus: formulação do problemaformulação do problema

Percepções: fedor (ao lado do Wumpus) brisa (ao lado dos buracos) brilho (na caverna do ouro) choque (contra a parede da caverna) grito do Wumpus (quando morre)

Ações: avançar para próxima caverna girar 90 graus à direita ou à esquerda pegar um objeto na mesma caverna que o agente atirar na direção para onde o agente está olhando (a flecha pára

quando encontra uma parede ou mata o Wumpus) sair da caverna

5

Codificação do Mundo do WumpusCodificação do Mundo do Wumpus

1

2

3

41 2 3

4

início

fedor

Abrisa B

W

brisa

brisa

fedor

fedorbrisa, luz

B

B

brisa

brisa

OA - AgenteW - WumpusB - BuracoO - OuroX? - possível XV - Caverna visitada

Percepção = [fedor,brisa,luz,choque,grito]

6

Percebendo, Raciocinando e AgindoPercebendo, Raciocinando e Agindo no Mundo do Wumpus no Mundo do Wumpus

Seqüência perceptiva:

t=2

1

2

3

41 2 3

4

Aok

ok

ok

t=0

[nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada]

1

2

3

41 2 3

4

okA

ok

V

okB?

B?

b

Modelo do mundo mantido pelo agente:

7

1

2

3

41 2 3

4

ok

Aok

V Vbok

W

f

ok

B!

[fedor,nada,nada,nada,nada]

t=11: Vai para (2,3) e encontra o ouro!

1

2

3

41 2 3

4

ok

A

fok

V Vbok

B!

W

Vok

V

f b lB?

B?

ok

t=7: Decide ir para (2,2), único OK não visitado

Seqüência perceptiva:

Modelo do mundo mantido pelo agente:

Percebendo, Raciocinando e AgindoPercebendo, Raciocinando e Agindo no Mundo do Wumpus no Mundo do Wumpus

[fedor,brisa,nada,luz,nada]

Sequência de ações:

8

Exercício... Vamos achar o ouro?Exercício... Vamos achar o ouro?

1

2

3

41 2 3

4

A

B!

W!

O

B!

Exemplos de Exemplos de agentesagentesAgente Dados

perceptivosAções Objetivos Ambiente

Diagnósticomédico

Sintomas,paciente, exames

respostas, ...

Perguntar,prescrever exames,

testar

Saúde do paciente,minimizar custos

Paciente,gabinete, ...

Análise deimagens de

satélite

Pixels imprimir umacategorização

categorizarcorretamente

Imagens desatélite

Tutorial deportuguês

Palavrasdigitadas

Imprimir exercícios,sugestões,

correções, ...

Melhorar odesempenho do

estudante

Conjunto deestudantes

Filtrador demails

mensagens Aceitar ou rejeitarmensagens

Aliviar a carga deleitura do usuário

Mensagens,usuários

Motorista detaxi

Imagens,velocímetro,

sons

brecar, acelerar,dobrar, falar com

passageiro, ...

Segurança,rapidez, economia,

conforto,...

Ruas, pedestres,carros, ...

Músico de jazz Sons seus e deoutros músicos,

grades deacordes

Escolher e tocarnotas no andamento

Tocar bem, sedivertir, agradar

Musicos,publico, grades

de acordes

10

Dimensões classificadoras dos ambientesDimensões classificadoras dos ambientes

Universo: Físico: robôs, humanos, animais Software: softbots Realidade virtual (simulação do ambiente físico): softbots e

avatares

Características: parcialmente x totalmente observável estacionário x dinâmico x tempo-real determinista x estocástico discreto x contínuo episódico x não-episódico mono-agente x multi-agente diversidade tamanho

11

AcessibilidadeAcessibilidade

Totalmente observável ou acessível:Totalmente observável ou acessível: Sensores do agente conseguem perceber a cada instante todos

os aspectos do ambiente relevantes para a escolha da ação

Parcialmente observável ou inacessível ou com variáveis Parcialmente observável ou inacessível ou com variáveis escondidasescondidas ex. wumpus não é acessível, xadrez é

Fontes de inacessibilidade:Fontes de inacessibilidade: Escopo limitado dos sensores Domínios inacessíveis por qualquer sensor Granularidade insuficiente dos sensores Ruído nos sensores:

Limite a confiabilidade das percepções no lugar do seu escopo

12

Determinismo Determinismo

Determinista:Determinista: pode se prever exatamente próximo estado do ambiente apenas a partir da ação executada

Não determinista ou estocástica:Não determinista ou estocástica: conseqüências de uma ação no ambiente parcialmente imprevisível

Fontes de não determinismo:Fontes de não determinismo: Inerente ao ambiente: granularidade quântica, jogos com

aleatoriedade Outros agentes no ambientes Ruído nos atuadores Granularidade insuficientemente dos atuadores ou da

representação utilizada para raciocinar

13

Dinamicidade: Dinamicidade: ambientesambientes

estacionários e estacionários e seqüenciais seqüenciais

Perc

ep

ção

Ambiente Estacionário

Agente

Ação

Estado 1 Estado 2

Raciocínio

Único ciclo percepção-raciocínio-ação durante o qual ambiente não muda

Perc

ep

ção

Ambiente Seqüencial

Agente

Ação

Estado 1

Raciocínio

Perc

ep

ção

Ação

Estado 2

Raciocínio

Perc

ep

ção

Ação

Estado 3

Raciocínio

Estado N

... Vários ciclos percepção-raciocínio-ação com ambiente mudando apenas como conseqüências das ações do agente

14

Dinamicidade: ambientesDinamicidade: ambientesconcorrentes síncronos e concorrentes síncronos e

assíncronosassíncronos

...P

erc

ep

ção

Ambiente concorrentesíncrono

Agente

Ação

Estado 1

Raciocínio

Perc

ep

ção

Ação

Estado 2

Raciocínio

Estado 4 Estado 5

Estado 3

Ambiente pode mudar entre última ação e próxima percepção mas nãomas não durante raciocínio

...

Perc

ep

ção

Ambiente concorrenteassíncrono

Agente

Ação

Estado 1

Raciocínio

Estado 2

Estado 4

Estado 3

Perc

ep

ção

Ação

Estado 5

Racio

cín

io

Estado 6

Ambiente pode mudar a qualquer momento, inclusive inclusive durante raciocínio

15

Número de agentesNúmero de agentes

Mono-agente com ambiente passivo O ambiente muda apenas como resultado das ações do único

agente

Mono-agente com ambiente ativo O ambiente muda espontaneamente sem intervenção do agente

Multi-agente cooperativo

Multi-agente competitivo

Multi-agente cooperativo e competitivo Com alianças fixas ou dinâmicas

16

Natureza matemática das grandezasNatureza matemática das grandezas

Grandezas: Valores fornecidos pelos sensores e disponíveis para controlar atuadores Cardinalidade e atributos dos objetos, relações, eventos, locais do ambiente

Binárias Dicotômicas

Booleanas

Qualitativas Nominal

Ordinal

Quantitativas Intervalar

Fracional

Discreta

ContínuaR

[0,1]

17

Natureza matemática das grandezasNatureza matemática das grandezas

Binário:Binário: Booleano, ex, Male {True,False} Dicotômico, ex Sex

{Male,Female} Nominal ou categórico ou Nominal ou categórico ou

simbólico:simbólico: partição finita de valores sem

ordem nem medida são apenas = ou ex, brasileiro, francês, americano

Ordinal ou enumerado ou discreto:Ordinal ou enumerado ou discreto: partição finita de valor ordenada

(parcialmente ou totalmente) sem medida

são apenas =, , , > ex, fraco, médio, bom, excelente

Intervalar:Intervalar: partição finita de valor

ordenada com medida m definindo distância d:X,Y, d(X,Y) = |m(X)-m(Y)|

sem zero inerente ex, temperatura em grau

Celsius Fracional ou proporcional:Fracional ou proporcional:

partição com distância zero inerente

todos os operadores matemático aplicam-se

ex, temperatura em grau Kelvin Contínuo:Contínuo:

conjunto infinito de valores ordenadas com medida, isomorfo a R

18

Outras característicasOutras características

Episódico: A experiência do agente é dividida em episódios Ação em cada episódio independente das ações nos episódios

prévios ex.: classificador de imagens é episódico, xadrez não

campeonato de futebol é episódico, partida não

Ambiente aberto: Inacessível, estocástico, não episódico, contínuo, assíncrono

multi-agente ex: RoboCup, Internet, bolsa de valores

19

Tamanho é documento !Tamanho é documento !

Tamanho, Tamanho, número de instânciasinstâncias de: percepções, ações e objetivos

do agente agentes, objetos, locais,

relacionamentos, estados e eventos do ambiente

Escalabilidade da execuçãodo raciocínio do agente

Diversidade, Diversidade, número de classesclasses de: percepções, ações, objetivos do

agente agentes, objetos, locais,

relacionamentos, estados e eventos do ambiente

Escalabilidade do processode aquisição do conhecimentonecessário para raciocinar

Exemplos de Exemplos de ambientesambientes

Agente acessível determinista episódico estático discreto

xadrez sem relógio Sim +/- Não Sim Sim

xadrez com relógio Sim +/- Não Semi sim

gamão sim não não sim sim

motorista de taxi Não Não Não Não Não

médico Não Não Não Não Não

tutor Não Não Não Não Sim

Analisador de imagem Sim Sim Sim Semi Não

Busca na web Não +/- Sim Não Sim

Filtrador de mail Sim +/- Sim Não Sim

Músico Sim Não Não Não Não

21

Arquiteturas de agentesArquiteturas de agentes

Agente reflexo (puramente reativo) Agente autômato (reativo com estado interno) Agente cognitivo (baseado em objetivos) Agente deliberativo (planejador) Agente híbrido reativo-deliberativo Arquiteturas em camadas Agente otimizador (baseado em utilidades, decision-

theoretic) Agente adaptativo (learning)

22

Agente reflexoAgente reflexo(puramente reativo)(puramente reativo)

Am

bie

nte

Sensores

Atuadores

RegrasPercepção Ação

A(t) = h(P(t))

23

Lembrando... Lembrando...

Raciocínio

AgenteAgente

Am

bie

nte

Sensores

Atuadores

Objetivos

Interpretaçãodas percepções:

I = f(P)

Escolhadas ações:A = g(I,O)

A

P

24

E então?E então?

Objetivos

Interpretação das percepções: I = f(P)

Escolha das ações:A = g(I,O)

Am

bie

nte

Sensores

Atuadores

RegrasPercepção Ação

A(t) = h(P(t))

A

P

25

Agente reflexoAgente reflexo

Funcionamento Usa regras ou função associando diretamente percepção

com ação ex. Se velocidade > 60 então multar ex. Se luz do freio do carro da frente acender, então frear

Dada a percepção, encontra a primeira regra que casa e executa ação

Exemplo no Wumpus IF visualPerception = glitter THEN action = pick see(glitter) do(pick) (representação em lógica)

26

Agente reflexoAgente reflexo

Vantagens e desvantagens Regras condição-ação: representação inteligível, modular e

eficiente Não pode armazenar uma seqüência perceptiva, pouca

autonomia

Limitações do agente reativo puro no mundo do Wumpus um agente ótimo deveria:

recuperar o ouro ou determinar que é muito perigoso pegar o ouro e em qualquer dos casos acima, voltar para (1,1) e sair da caverna.

Um agente reativo nunca sabe quando sair, estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu). esses agentes podem entrar em laços infinitos.

27

Agente autômatoAgente autômato(reativo com estado interno)(reativo com estado interno)

Am

bie

nte

Sensores

Atuadores

Modelo dos ambientes(passados) e atual

Interpretador de percepçõesRegras:percepção modelo modelo

Escolhedor de açõesRegras:modelo ação, e ação modelo modelo

Atualizador domodelo do ambienteRegras: modelo modelo

Objetivos

Agente autômatoAgente autômato

Regras associando indiretamente percepção com ação via construção e manutenção de um modelo do ambiente

Ação depende de: percepção atual + percepções anteriores + ações anteriores ...

Motivação Nem o ambiente todo é acessível no mesmo momento

ex. ultrapassagem de um carro Percepções instantâneas iguais podem corresponder a estados

diferentes ex. Wumpus: cavernas visitadas

Limitações: Pouca autonomia Não tem objetivos explícitos

Regras de agente autômatoRegras de agente autômato

Regras percepção modelo modelo IF visualPercept at time T is glitter

AND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y)

X,Y,T see(glitter,T) loc(agent,X,Y,T) loc(gold,X,Y,T).

Regras modelo modelo IF agent is with gold at time T

AND location of agent at time T is (X,Y)THEN location of gold at time T is (X,Y)

X,Y,T withGold(T) loc(agent,X,Y,T) loc(gold,X,Y,T).

30

Regras de agente autômatoRegras de agente autômato

Regras modelo ação IF location of agent at time T = (X,Y)

AND location of gold at time T = (X,Y) THEN choose action pick at time T

X,Y,T loc(agent,X,Y,T) loc(gold,X,Y,T) do(pick,T)

Regras ação modelo modelo IF choosen action at time T was pick

THEN agent is with gold at time T+1

T done(pick,T) withGold(T+1).

31

Agente cognitivoAgente cognitivo(baseado em objetivos)(baseado em objetivos)

Am

bie

nte

Sensores

Atuadores

Modelo dos ambientes(passados) e atual

Interpretador de percepçõesRegras: percepção modelo modelo

Escolhedor de açãoRegras: modelo objetivos ação, e ação modelo modelo

Atualizador do modelo do ambienteRegras: modelo modelo

Atualizador dos objetivosRegras: modelo objetivos objetivos Objetivos

32

Agente cognitivoAgente cognitivo

Vantagens: Mais flexível e autônomo

ex. adapta suas escolhas a situações resumidas em objetivos dinâmicos

Limitações: Escolhe ações uma por uma:

Não planeja seqüências de ações levando ao seu objetivo Ações baseadas apenas no modelo atual (ou passado) do ambiente Não tente prever modelos futuros do ambiente

Não trata objetivos conflitantes ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido

e bonito

33

Regras de agente cognitivoRegras de agente cognitivo

Regras modelo objetivo ação IF goal of agent at time T is to return to (1,1) AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action turn left at time T

X,Y,T, (N,M,K goal(T,loc(agent,1,1,T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(turn(left),T)

Y+1

ok

Yv ok

A

X-1 X

34


Regras modelo objetivo ação IF goal of agent at time T is to find gold AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action forward at time T

X,Y,T, (N,M,K goal(T,withGold(T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(forward,T)

Y+1

ok

Yv ok

A

X-1 X

35


Regras modelo Regras modelo objetivo objetivo modelo modelo//Se o agente queria estar com o ouro e conseguiu, //atualizar objetivo para voltar para (1,1) IF goal of agent at time T-1 was to find gold AND agent is with gold at time T THEN goal of agent at time T+1 is to be in location (1,1)

T, (N goal(agent,T-1,withGold(T+N)) withGold(T) M goal(agent,T,loc(agent,1,1,T+M))).

36

Agente deliberativoAgente deliberativo(planejador)(planejador)

Am

bie

nte

Sensores

Atuadores

Modelo dosambientes(passados)

e atual

Interpretador de percepçõesRegras: percepção(t) modelo(t-1) modelo(t)

Escolhedor de açãoRegras: resultado([ação(t),...,ação(t+n)]) = modelo(t+n) modelo(t+n) objetivo(t) faz(ação(t))

Atualizador do modelo do ambienteRegras: modelo(t) modelo(t)

Atualizador dos objetivosRegras: modelo(t) objetivos(t-1) objetivos(t)

Objetivos

Previsor de ambientes futurosRegras: modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1)

Modelo dosambientes

futuroshipotéticos

Agente deliberativoAgente deliberativo

Associação percepção-ação indireta: Mediada por modelo atual do ambiente, objetivo explícito e previsão de estados futuros do ambiente resultando de

seqüências de ações

Encadeia regras: para construir plano multi-passo necessário para atingir objetivo a

partir de modelo atual ex. taxista encontrando a rota para o destino do passageiro ex. taxista freia porque quer evitar prejuízo e dor de cabeça no

futuro

Vantagens: Escolha ações melhores: mais relevantes e mais seguras

Desvantagens: Custo da deliberação pode ser excessiva em ambientes tempo real

38

Regras de agente deliberativoRegras de agente deliberativo

Regras objetivo Regras objetivo modelo modelo ações ações IF goal of agent at time T is to be in (X+1,Y+1)

AND agent is in (X,Y) at time T AND location (X+1,Y) is safe at time TTHEN change goal of agent at time T to be (X+1,Y)AND set goal of agent at time T+1+N to be in (X+1,Y+1)

IF goal of agent at time T is to be in (X+1,Y)AND location (X+1,Y) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 90o at time TTHEN choose action sequence [turn(right),forward]

IF goal of agent at time T is to be (X,Y+1)AND location (X,Y+1) is safe at time TAND agent is in (X,Y) at time TAND agent orientation is 0o at time TTHEN choose action sequence [turn(left),forward]

Y+1

ok

Y A ok

XX+1

Y+1

ok

Y

A

X-1 X

39

Regras de agente deliberativoRegras de agente deliberativo

Regras objetivo Regras objetivo modelo modelo ações ações X,Y,Y (N goal(T,loc(agent,X+1,Y+1,T+N))

safe(loc(X+1,Y+1), T) loc(agent,X,Y,T) M,I goal(T,loc(agent,X+1,Y,T+M)) goal(T+1+I,loc(agent,X+1,Y+1,T+N)))

X,Y,Y N goal(T,loc(agent,X+1,Y,T+N)) safe(loc(X+1,Y), T) loc(agent,X,Y,T) orientation(agent,90,T) do(turn(right),T) do(forward,T+1)

X,Y,Y N goal(T,loc(agent,X,Y+1,T+N)) safe(loc(X,Y+1), T) loc(agent,X,Y,T) orientation(agent,0,T) do(turn(left),T) do(forward,T+1)

Y+1

ok

Y A ok

XX+1

Y+1

ok

Y

A

X-1 X

40

Thread DeliberativaThread Deliberativa

Objetivos

Modelo dosambientes:

atualpassadose futuros

Atualizador do modelo do ambiente

Interpretador de percepções

Atualizador dos objetivos

Previsor de ambientes futuros

Escolhedor de ação

Agente híbrido reflexo-deliberativoAgente híbrido reflexo-deliberativo

Am

bie

nte

Sensores

Atuadores

Thread ReflexaThread ReflexaRegras ReativasPercepção Ação

Sincronizador

41

Agente híbrido reflexo-deliberativoAgente híbrido reflexo-deliberativo

Vantagens: Toma a melhor decisão possível dado tempo de deliberação

disponível Robusto e experto

Desvantagens: Tempo de desenvolvimento Mesmo conhecimento codificado em formas diferentes em regras

reativas e deliberativas Coerência do comportamento global resultante difícil garantir Depuração dificultada pelos problemas de sincronização Nem tantos ambientes requerem ciclos percepção-raciocínio-

ação deduração muito desigual

42

Arquiteturas em camadasArquiteturas em camadas

Em ambientes abertos: Número muito grande de percepções e ações possíveis impede

raciocinar diretamente a nível delas Explosão combinatória da base de regras reflexas

ou dos fatos modelo do ambiente É necessário decompor raciocínio em camadas de abstração Formas de abstração:

Discretização Agrupamento (espacial, temporal, por partes, por papeis/funções) Aproximação

Abstrai

Raciocina Abstratamente

Detalhe

Age Detalhadamente

PercebeDetalhadamente

43

Interpretador de percepçõesInterpretador de percepções

Am

bie

nte

Sensores

Atuadores

Modelo do ambienteModelo do ambienteAtualizador do modelo do ambienteAtualizador do modelo do ambiente

Escolhedor e controlador de açõesEscolhedor e controlador de ações

Agente autômato em camadasAgente autômato em camadas

Nível 0: f(x).dxy

Nível 1: y).P(y)|P(zP(s)

Nível 0: f(x).dxy

Nível 1: y).P(y)|P(zP(s)

Nível 2: q(A)r(B)B)s(A,

Nível 2: q(A)r(B)B)s(A,

q(A)r(B)B)s(A, q(A)r(B)B)s(A, Nível 2: Nível 2:

44

Exemplo de camadas de abstração: Exemplo de camadas de abstração:

XX

YY

45

Exemplo de camadas de abstração: Exemplo de camadas de abstração:

XX

YY

46

Agente otimizador deliberativoAgente otimizador deliberativo (baseado em utilidades) (baseado em utilidades)

Escolhedor de ação

Am

bie

nte

Sensores

Atuadores

Modelo dosambientes(passados)

e atual

Interpretador de percepçõesRegras: percepção(t) modelo(t-1) modelo(t)

Atualizador do modelo do ambienteRegras: modelo(t) modelo(t)

Atualizador dos objetivosRegras: modelo(t) objetivos(t-1) objetivos(t)

Objetivos

Previsor de ambientes futurosRegras:modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1)

Modelo dosambientes

futuroshipotéticos

t))objetivos(|])o([U(resultad

ação

faz( açãoaçãoargmax i

ni

i

1i

1

Utilidadesu:modelos x objetivos R

47

Agente otimizador reativoAgente otimizador reativo (baseado em utilidades) (baseado em utilidades)

Am

bie

nte

Sensores

Atuadores

Interpretador de percepçõesRegras: percepções ações executáveis

Objetivos

Escolhedor de ações Utilidadesu:ações R U(a))faz( argmax

sexecutáveiaçõesa

48

Agente otimizadorAgente otimizador

Incorpora função de utilidade que define: preferências entre estados do ambientes ou ações a executar dados os objetivos atuais do agentes

Permite escolher melhor compromisso entre: vários objetivos conflitantes, ou vários objetivos com probabilidades diferentes de serem alcançado

Vantagem: muitos ambientes requerem fazer compromissos entre vários

objetivos de alcançabilidade incerta

Limitações: Abordagens existentes tendem a ser pouco escaláveis em termos

diversidade dos objetos, relacionamentos, agentes e eventos do ambiente

49

Regras de agente otimizadorRegras de agente otimizador IF at time T agent has goal to be with gold

AND agent is not with gold at time TAND agent is in (X,Y) at time TAND a wumpus is in (X+1,Y) at time TAND wumpus is alive at time TAND wall in (X-1,Y)AND wall in (X-1,Y-1)AND wall in (X,Y-2)AND wall in (X+1,Y-2)AND agent visited (X,Y-1) AND agent visited (X+1,Y-1)AND agent has arrow at time TTHEN utility of wumpus dead at time T+2 is 0.8

IF at time T agent has goal to be with goldAND agent is not with gold at time TAND agent is in (X,Y) at time TAND gold is in (X,Y) at time TTHEN utility of agent being with gold at time T+1 is 1

Y+1 B?

YAfO

W

Y-1 v v

XX+1

X+3

50

Regras de agente otimizadorRegras de agente otimizador

T,X,Y N,I,J goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(wumpus,X+1,Y) alive(wumpus,T) loc(wall,X-1,Y) loc(wall,X-1,Y-1) loc(wall,X,Y-2) loc(wall,X+1,Y-2) loc(agent,X,Y,T-I) loc(agent,X,Y,T-J) has(agent,arrow,T) utility( alive(wumpus,T+2)) = 0.8

T,X,Y N goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(gold,X,Y,T) utility(has(agent,gold,T+1)) = 1

Y+1 B?

YAfO

W

Y-1 v v

XX+1

X+3

51

Componente de aprendizagem de conhecimento

Componente de análise crítica de desempenho

Agente adaptativoAgente adaptativo(learning)(learning)

Am

bie

nte

Sensores

Atuadores

Componentede ação

Componente geração de problemas

• Reflexo• Autômato• Cognitivo• Deliberativo• Otimizador• Híbrido

• Aprende regras ou funções: • percepção(t) ação(t)• percepção(t) modelo(t-1) modelo(t)• modelo(t) modelo(t)• modelo(t-1) modelo(t)• modelo(t) ação(t)• ação(t) modelo(t+1)• modelo(t) objetivo(t) ação(t)• objetivo(t-1) modelo(t) objetivo(t)• utilidade(ação) = valor• utilidade(modelo,objetivo) = valor

52

Ambientes de simulaçãoAmbientes de simulação

Inicialização do ambiente: A partir dos parâmetros de configuração, identificar sub-classe

relevante da classe do ambiente simulado ex, Mundo do Wumpus com caverna quadrada e wumpus imóvel ex, RoboCup com taxa de ruído de 5% para força de chutes e 2%

para visão da posição dos outros jogadores Criar instância aleatória particular dessa sub-classe

ex. tamanho da caverna, locais dos buracos, do wumpus e do ouro

Ciclo de processamento do ambiente:1. Gerar percepções dos agentes a partir do estado atual do

ambiente2. Mandar essas percepções para os agentes3. Receber ações escolhidas pelos agentes4. Atualizar o estado do ambiente para refletir essas ações

53

Servidor deServidor deSimulaçãoSimulação

RedeRede

Arquitetura de ambiente de simulaçãoArquitetura de ambiente de simulação

AmbienteSimulado

GUI de Visualizaçãoda Simulação

Atualizador do ambienteRegras: ambiente(t) ambiente(t+1)e ações(t) ambiente(t) ambiente(t+1)

Gerador de percepçõesRegras: ambiente(t) percepção(t)

percepções

açõesCliente

Agente 1

Cliente Agente N

...

54

Exercício 1 (equipes de 4 ou 5 alunos)Exercício 1 (equipes de 4 ou 5 alunos)

Preencher tabela abaixo com +, +/-, - Um parágrafo curto para cada célula justificando resposta

Reflexo

Autômato

Cognitivo

Deliberativo

Reflexo-Deliberativo

OtimizadorDeliberativo

OtimizadorReflexo

Adaptativo

Acessível

Inacessível

Determinista

Estocástica

Discreto

Contínuo

Estacionário

Seqüencial

Concorrente síncrono

Concorrente assíncrono

Episódico

Não episódico

Mono-AgenteAmbiente passivo

Mono-AgenteAmbiente ativo

Multi-Agente cooperativo

Multi-Agente competitivo

ambientes e arquiteturas de agentes

Documents