diagrams gabriel detoni. levels of responsability estratégia previsão de estados histórico de...
TRANSCRIPT
Diagrams
Gabriel Detoni
Levels of Responsability
Estratégia
Previsão de Estados
Histórico de Estados
Leitura de Estados
Aglomeração
Jogada
Atividade
Ação
Movimento
Tática
Operação
Interface
Levels of Responsability
Estratégia
Leitura de Dados
Divisão de Grupos
Jogada
Atividade
Ação
Movimento
Organização
Coordenação
Execução
Visão geral das interconexões
Estratégia
Leitura de Dados
Divisão de Grupos
Jogada
Atividade
Ação
Movimento
Message Passing
Entities
Entidade
W
W
W
Entities
Atividade
Atividade
Atividade
Ação Jogada
Leitura de
Estado
Movimento
Módulo de Movimento
Módulo de Visão
Estratégia
Grupo
Lista de receptores
Thread
R1
Rn...
Lista de receptores.
T1
T3
T2
Esquemático de uma TC
Tarefa Conexionista (TC)
netT2
netT3
netT1
a =
F(a, netT1, netT2, netT3)
o = f(a)
Regra de propagação
A. B.
T1
T3
T2
TC
T1
T3
T2
TC
m1
m2
m3
m4
m5
Thread Conexionista
Função de ativação
Pontos de extensão de uma TC
Lista de TCs à qual esta TC se conecta
Tipos de estímulo aceitos
Variáveis de instância
Padrão deconectividade
Regra de ativação
Estado de ativação
Função de saídaFunção de Ativação
Workflow de uma TC
Estímulo recebido
Atualização do estado de ativação
Envio de estímulos às
TCs conectadas
Produção de novos
estímulos
Estímulo válido?
S
N
Padrão de conectividade
T1
T3
T2
TC
T5
T4
TC
T1
T3
TC
T6
TC
TS
TS
TS
TC
Regra de propagação
netT2
netT1
Stimulus Datagram
Estímulo
DadosRótulo In
(x, ix)
Processamento paralelo
Computador Serial
Tarefa 1 Tarefa 2
Computador Paralelo
Tarefa 1
Tarefa 2
Tempo
Attack
Position
Defense
Strategy: instabilitySt
rate
gy R
ecom
men
datio
n
Time
Strategy Recomm
endation Thresholds
Position
Attack
Defense
Strategy: stableSt
rate
gy R
ecom
men
datio
n
Time
Strategy Recomm
endation Thresholds
P1 P2 P3 P4
Starting-up Entities
Entidade A
W
W
WEntidade B
...
W
W
...
...
...
Application Entities
Evitar Obstáculo
Ir Para
Conduzir Bola
Chutar
Aglomeração
Movimento
Mover
Driblar
Receber Passe
Cruzar Bola
Ficar Entre
Passar Bola
Ataque Individual
Cruzamento
Suporte Ataque
Cobrar Falta
Posicionar para
PenaltyPosicionar para Inicio
Defesa Individual
Ler Estado
Atividades
Ações
Instanciação de TCs
Conduz... BolaChutarIr Para Receb...
Bola Chutar
Cruzamento
Receb... Cruza...
Cruzar Bola
Jogada instancia
Atividades
Atividade
Topologia de uma Jogada
Cond. BolaChutar
Aglomeração
Movimento
Receb. Cruz.
Cruzar Bola
Cruzamento
Estratégia
Ler Estado
Ir Para Receb.Bola Chutar
...
Simulator
Interface Gráfica
Sistema de Controle
Simulador
API de movimento
API de visão
Arquiteturas de HW
Memória
SIMD
UP M
M
M
UP
UP
...UC
...
FI
FD
FD
FD
FI
FI
FI
Memória
MIMD
M
M
M
...
UP
UP
UP
...
FD
FD
FD
FI
FI
FI
UC
UC
UC
...
FI
FI
FI
...
Shared Memory
Processador Processador Memória
Distributed Memory
Processador
Memória
Processador
Memória
Processador
Memória
Tests
h i j
k l
m
L1
L2
L3
h2 i2 j2
k2 l2
m2
n
L4
Tests Topology
I JH
K L
M
E/S
L1
L2
L3
a, b
c
h i j
f, gd, e
k l
I2 J2H2
K2 L2
M2
a2,b2
c2
h2 i2 j2
f2, g2
d2, e2
k2 l2
NL4m2m
Balanço de carga 6:6
hij
kl
m
hij
123456
klhij
mklhij
mklhij
mklhij
mklhij
mklhij
mkl
m
CPU
Tempo
Balanço de carga 6:3
hij
kl
mhij
123
kl
hij
mkl
m
CPU
Tempo
kl
hij
m
TempoTotal = TempoMédio * NumTarefas / NumCpuNumCpu = 3NumTarefas = 6
TempoTotal = 2 (por tarefa)
Sem balanço de carga 6:6
hij
kl
m
ij
123456
kl
ij
m
ij
CPU
Tempo
h h
kl
m
h
kl
m
Sem balanço de carga 6:3
hij
kl m
ij
123
kl
i jm
ij
CPU
Tempo
h hkl m
hkl m
d = desbalanceamento tg = tempo da maior tarefa = 2tm = tempo médio = 1tp = tempo perdidotu = tempo útiltt = tempo total nt = numero de tarefas = 6c = numero de cpus = 3d = tg – tm = 1tp = d / c * tm = 1/6tu = 1 – tp = 5/6tt = tu * tm * nt / c = 5/3
h hi j k
l mi
jkl m
hi j k
l m
hi
jkl m
Sem balanço de carga 6:3
hij
kl m
ij
123
kl
ijm
ij
CPU
Tempo
h hkl m
hkl m
d = desbalanceamento tg = tempo da maior tarefa = 2tm = tempo médio = 1tp = tempo perdidotu = tempo útiltt = tempo total nt = numero de tarefas = 6c = numero de cpus = 3d = tg – tm = 1tp = d / c * tm = 1/6tu = 1 – tp = 5/6tt = tu * tm * nt / c = 5/3
Observable/Observer
Observable
Observer
Observer
Wumpus
Ir Para Cima
Ir Para Baixo
Ir Para Direita
Leitura de
Estado
Movimento
Módulo de Visão
Ir Para Esquerda
Caçar Recompe
nsa
Atividade
Ação Estratégia
Fugir de Ameaça
Estratégia
Como aprender novas atividades?
Ir Para Cima
Ir Para Baixo
Ir Para Direita
Movimento
Ir Para Esquerda
Atividades conhecidas Ações Conhecidas
?
O que é uma ação?
Ir Para Cima
Ir Para Baixo
Ir Para Direita
Movimento
Ir Para Esquerda
Atividades conhecidas Ações Conhecidas
?
Uma ação é um mapeamento. Dado um estado atual, quais atividades me levam mais próximo a
um objetivo.
O que é uma ação?
Ir Para Baixo
Ir Para Esquerda
Ação ?
+ =
+ =
Estado Feedback
Exemplo: maximize a função y = 20 - x²
Incrementar
Função
Estado
Decrementar y
xx
Agente reativo
Rpt
Rcp
Ambiente
Ini
Iniciativa RepetiçãoRecompensa
Ações
Vazio Brisa Fosso
Apenas recebe um estímulo e repete a ação anterior se a recompensa for positiva, ou realiza uma outra ação aleatória caso seja negativa.
Agente com memória
RptRcpIni
A entidade associativa recebe um movimento e o combina com uma sensação, gerando uma nova entidade que associa ambas.
Ass
Associação
Agente com memória
RptRcpIni
1. Sensação 1 é recebida
2. Comando é enviado
3. Sensação 2 é recebida
4. Associação criada
Ass
1
2
Ciclo reativo realiza os
movimentos
3
Agente com memória
RptRcpIni
1. Sensação 1 é recebida
2. Comando é enviado
3. Sensação 2 é recebida
4. Associação criada
Ass
Ciclo reativo realiza os
movimentos
4
M1
Agente com memóriaRcp
1. Comando C é enviado
2. Sensação S1 é recebida
3. Recompensa R é recebida (-)
4. Associação criada pela regra:
1. R ├ S1 = C2. ¬R ├ S1 = ¬C
Ass
1
2
3
Agente com memóriaRcp
Ass
4
M1
1. Comando C é enviado
2. Sensação S1 é recebida
3. Recompensa R é recebida
4. Associação criada pela regra:
1. R ├ C Λ S1 = C
2. ¬R ├ C Λ S1 = ¬C
Conexão inibitória
Agente com memória (2)Rcp
Ass
M1
1. Comando C é enviado
2. Sensação S1 é recebida
3. Memória M1 é disparada inibindo Ass1
Agente com memória (2)Rcp
Ass
M1
1. Comando C é enviado
2. Sensação S1 é recebida
3. Recompensa R é recebida (+)
4. M2 é gerada
1
M2
Agente com memória (2)Rcp
Ass
M1
1. Comando C é enviado
2. Sensação S1 é recebida
3. Recompensa R é recebida (+)
4. M2 é gerada1
M2
Modelo proposto
xor
0
1
1
1
XOR A B0 0 01 0 11 1 00 1 1
A or B 0
1
1
1
not(A and B)
xor
1
1
-1
-1
1
1
-1
2
0
Modelo proposto
xor
0
1
1
1
XOR A B0 0 01 0 11 1 00 1 1
A or B 0
1
0
1
not(A and B)
xor
1
1
-1
-1
1
1
-1
2
0
Agente com memória: Posição/Sensação
M1
1. Comando C é enviado
2. Sensação S1 é recebida
3. Recompensa R é recebida (+)
4. M2 é gerada1
S1 S2 S3 S4
Agente com memória: Sensações/Comando1. Comando C é
enviado2. Sensação S1 é
recebida3. Recompensa R é
recebida (+)4. M2 é gerada
S1 S2 S3 S4
Memória associativa normal: Sensações/Comando
? ?Sensações da posição atual, bem como das
imediatamente vizinhas, são providas.
Sensações da posição atual, bem como das
imediatamente vizinhas, são providas.
R
Recompensa ajusta pesos de neurônios ativados
simultaneamente.
Memória associativa TC: Sensações/Comando
S
As sensações para cada
posição são enviadas
O comando executado é
enviado
M
C
S1S2S3
R
A recompensa é enviada.
Memória associativa TC: Sensações/Comando
S(p): sensação para posição pC: comandoR: recompensa
S(p)
C
R
S(p)
S(p)S(p)
S1
?
1 .1 .3
.2 .3 .4
.2 .1 .1
.2 .4 .2
S
C
R
Sistema de controle
Visão
Rádio
Sistema de Controle
Grupos
Campos potenciais 1
Campos potenciais 2
Campos potenciais 3
Receber passe
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
AAo receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHKHK
AH
K
BFG
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHK
-
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHK
-
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHK
-
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHK
-
Aprendizado
Ch1
Ch2
Ch3
WrA
WrB
A
A Ao receber um estímulo ‘A’ WrA propaga sua saida.Ao receber um estímulo ‘A’ WrB não propaga sua saida.O inverso acontece ao receber ‘B’.
Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada.
H
K
Out
AHK
-