xavier: navegação baseado em pomdp sven koenig, reid g. simmons apresentador: pedro mitsuo shiroma

Xavier: Navegação Baseado em POMDP

Sven Koenig, Reid G. Simmons

Apresentador: Pedro Mitsuo Shiroma

Definição do Problema

• Navegação robusta de um robô móvel, por longos períodos de tempo, em um ambiente interno não-estruturado.

• Caminhar por corredores, por longos períodos de tempo, sem perder-se.

Dificuldades

X

Imprecisão nos atuadores

X

Imprecisão nos sensores.

Abordagens Existentes

• Mapas métricos• + Fácil atualização dos dados de odometria para

o mapa,• - Problema de dead-reckoning

• Mapas topológicos• + Compactação dos dados• - Incerteza nos sensores

• Navegação métrica


relatório do sensor

relatório de movimento

•Navegação baseado em landmark

X


• Incapazes de lidar:• Com múltiplas possibilidades para a postura do robô,

• E lidar, de forma unificada, com as incertezas nos:• atuadores,• sensores,• interpretação dos dados,• posição inicial,• caráter estático da cena

Trabalhos Relacionados

• Como trabalhar de maneira segura em um ambiente impreciso?

• Filtro de Kalman – Unimodal • Redes Bayesianas – Espaço discreto• POMDP

Trabalhos Relacionados: Dervish

• Dervish:• Mapa topológico• Planejamento externo• “Intuição”

• Xavier:• Misto de mapa topológico e métrico• Planejamento inerente à arquitetura• Formalismo matématico (POMDP)

Navegação POMDP

•Partially Observable Markov Decision Process

Processo de Markov• AFN:

• Alfabeto = ações, • Transição = probabilidades,

• Propriedade de Markov: O próximo estado é determinado exclusivamente pelo estado atual e a ação tomada.

cara coroa

Jogar/0.5

Cair no chão/0.9

Cair no chão/0.1 Jogar/0.5

Jogar/0.5

Jogar/0.5

Processo de Decisão de Markov

• 4-upla: (S, A, T, R):•S = Conjunto de estados,•A = Conjunto de ações,•T:S£A ! ? = função de transição de estado,•R:S£A !< = função de recompensa

• A melhor ação nem sempre é aquela que traz a maior recompensa imediata: Planejamento a longo prazo.

Ações Determinísticas =S x Estocásticas = p(s’/s,a)

Prog. Dinâmica (Bellman):V(s) = maxa2 A [R (s)+ s’ 2 Sp(s’/s,a)V(s’)]


• Solução para um MDP: Política • Política: : S ! A

• Programação linear• Value Iteration Algorithm: Horizonte de tempo:

1, 2,..., 1

Exemplo

?

a(s) = arg maxa2 A [R (s,a) + s’ 2 Sp(s’/s,a)V(s’)]


1. Determine o estado corrente s,2. Execute a ação s3. Volte para o primeiro passo,• Assume observação total: O novo estado é

conhecido pelo sistema

Processo de Decisão de Markov Parcialmente Observável

• Observações O,• Uma distribuição para as observações,• e para o estado inicial.


• M = (S, O, , A, s, p, q, r), onde :• S = conjunto de estados,• O = conjunto de observações, = distribuição do estado inicial,• A(s) = ações possíveis para o estado s,• s = estado atual,• p(s’/s,a) = função de transição,• q(o/s,a) = função de observação,• r(s/a) = função de recompensa.


• O estado atual é observado,• Decisão requer manter um histórico do

ponto de partida, ações tomadas, observações realizadas: Não-Markoviano,

• É necessário manter o histórico?• Não! Estado de crença: “Onde eu acho que

estou”


• Solução exata: NP –difícil• Heurísticas:

• MLS (Most Likely State),• Votação,• Witness

• Grid-based• Fatorar dependências.


• q,p: Estimativa inicial, aprendizado,• Mapa métrico = estados,• Modelo atuador = p,• Modelo sensores = q.

Arquitetura Xavier

Planejador TarefasPlanejador TrajetóriasNavegadorDesvio de ObstáculosParada Emergencial

Comportamento ObjetosMudanças no mundoIdentificação objetosMonitoramento MudançasConstrução mapasExploraçãoVagarDesvio de Obstáculos

Subsumption ArchitectureArquitetura Xavier

Arquitetura XavierMapa topológicoModelo atuadoresModelo sensoresModelo portas

POMDP Geração da política

Seleção diretivas

Geração movimentos

MotoresOdometriaSonar

Grade de ocupação

Relatório sensores Relatório atuadores

Localização

Alvos

Xavier

Mudanças na direção e distância percorrida

Detector de portas, espaços livres.

Estimação da(s) postura(s)

Processo Off-line

Compilador POMDP Movimentos

desejados

Desvio de obstáculos

Relatórios

• Movimento: Discretizado com 1 metro• Sensores:

• Esquerda: Incerto, parede, abertura pequena, abertura média, abertura grande;

• Direita: Incerto, parede, abertura pequena, abertura média, abertura grande;

• Frente: Incerto, parede.

Modelo Orientação

• Robô possui 6 d.o.f.: Como representar rotações?

• Cada postura é representada por quatro estados:

Modelo Corredor

• Conhecimento métrico preciso

Modelo Corredor

• Conhecimento métrico impreciso

Modelo Junção

Exemplo

Exemplo

• Animação

Como Alinhar-se?

• Detector de retas na grade de ocupação:• Escorregamento rotacional não é tratado pelo

modelo proposto.

Múltipla detecção de características

Conclusões

• Caminhar por corredores, que formam ângulos retos, por longos períodos de tempo, sem perder-se completamente.

• Vantagens:• Representação multimodal;• Acoplado com o planejamento;

• Desvantagens:• Requer discretização do ambiente;• Milhares de estados: Custo computacional;

Conclusões

• Exemplo prático pobre,• Modelar especificamente as junções,• Localização de Monte-Carlo:

• Utiliza Filtro de Partículas;• Espaço contínuo;• Computacionalmente tratável.

xavier: navegação baseado em pomdp sven koenig, reid g. simmons apresentador: pedro mitsuo shiroma

Documents