leandro chaves rêgo, ph.d. 2011 - de.ufpe.brleandro/aulasteoriadosjogos2011-1.pdf · forma a obter...

119
Notas de Aula do Curso de Pós-Graduação em Teoria dos Jogos Leandro Chaves Rêgo, Ph.D. 2011.1

Upload: tranliem

Post on 30-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Notas de Aula do Curso de Pós-Graduação emTeoria dos Jogos

Leandro Chaves Rêgo, Ph.D.

2011.1

Page 2: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Prefácio

Estas notas de aula foram feitas para compilar o conteúdo de várias referências bibliográficastendo em vista o conteúdo programático de uma disciplina introdutória de Teoria dos Jogosa nível de Pós-graduação. Em particular, elas não substituem a consulta a livros textos eartigos. Seu principal objetivo é dispensar a necessidade dos alunos terem que copiar asaulas e, deste modo, poderem se concentrar em entender o conteúdo das mesmas.

Recife, março de 2011.Leandro Chaves Rêgo, Ph.D.

i

Page 3: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Conteúdo

Prefácio i

1 Introdução à Teoria dos Jogos 11.1 O que é Teoria dos Jogos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Experimentos de Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Jogos de Uma Pessoa - Teoria da Decisão 42.1 Escolha sob Certeza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Relações Binárias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.2 Relação de Preferência . . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.3 Representação Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Escolha sob Incerteza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.1 Regras de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Qual a Regra “Correta”? . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.3 Representação Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.4 Paradoxos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Jogos em Forma Normal 243.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 Alguns Exemplos Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2.1 Batalha dos Sexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Jogos de Soma-Zero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.3 Medindo Forças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.4 Dilema do Prisioneiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.2.5 Duopólio de Cournot . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.6 Duopólio de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3 Racionalizabilidade e Dominância . . . . . . . . . . . . . . . . . . . . . . . . 283.3.1 Comportamento Racional . . . . . . . . . . . . . . . . . . . . . . . . 283.3.2 Dominância Iterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 Racionalizabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.5 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.5.1 Jogos com um Único Equilíbrio de Nash . . . . . . . . . . . . . . . . 373.5.2 Jogos com Múltiplos Equilíbrios de Nash . . . . . . . . . . . . . . . . 393.5.3 Pontos Focais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

ii

Page 4: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5.4 Risco Dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.5.5 Dominância Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . 413.5.6 Prova da Existência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.5.7 Cálculo de Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . 433.5.8 Interpretações de Equilíbrio de Nash . . . . . . . . . . . . . . . . . . 45

3.6 Jogo Simétrico em Forma Normal . . . . . . . . . . . . . . . . . . . . . . . . 463.7 Jogo de Dois Agentes com Soma Constante . . . . . . . . . . . . . . . . . . . 48

4 Jogos em Forma Extensa 534.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Jogos com Informação Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2.1 Estratégias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.2 Representação em Formal Normal de um Jogo em Forma Extensa com

Informação Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.2.3 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.2.4 Equilíbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . . 61

4.3 Jogos com Informação Imperfeita . . . . . . . . . . . . . . . . . . . . . . . . 634.3.1 Memória Perfeita e Memória Imperfeita . . . . . . . . . . . . . . . . . 644.3.2 Estratégias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.3.3 Representação em Formal Normal de um Jogo em Forma Extensa com

Informação Imperfeita . . . . . . . . . . . . . . . . . . . . . . . . . . 714.3.4 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.3.5 Equilíbrio sequencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 Refinamentos de Equilíbrio de Nash para Jogos em Forma Normal 795.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.2 Equilíbrio Perfeito de Mão Trêmula . . . . . . . . . . . . . . . . . . . . . . . 795.3 Equilíbrio Próprio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6 Jogos Bayesianos 866.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866.2 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.2.1 Estratégias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.2.2 Representação em Forma Normal . . . . . . . . . . . . . . . . . . . . 886.2.3 Equilíbrio Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

7 Conhecimento e Conhecimento Comum 927.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.2 Um Modelo para Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . 927.3 Conhecimento Comum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.4 Impossibilidade de Concordar em Discordar . . . . . . . . . . . . . . . . . . 97

iii

Page 5: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8 Jogos Repetidos 988.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 988.2 Jogos Repetidos Infinitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . 988.3 Estratégias como Máquinas . . . . . . . . . . . . . . . . . . . . . . . . . . . 1008.4 Estratégias Gatilho: Teoremas de Nash Folk . . . . . . . . . . . . . . . . . . 1028.5 Punindo por Tempo Limitado: Um Teorema de Folk Perfeito para o Critério

do Limite das Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1048.6 Punindo quem não Pune: Um Teorema de Folk Perfeito para o Critério da

Ultrapassagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1068.7 Recompensando quem Pune: Um Teorema de Folk Perfeito para o Critério

do Desconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1078.8 Jogos Repetidos Finitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . . 109

8.8.1 Equilíbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1108.8.2 Equilíbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . . 111

Referências Bibliográficas 114

iv

Page 6: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 1

Introdução à Teoria dos Jogos

1.1 O que é Teoria dos Jogos?Definição 1.1.1: Teoria dos jogos é um ramo da matemática aplicada que analisa a interaçãode um grupo de agentes (ou jogadores) racionais que se comportam estrategicamente.

Esta definição contém um número de conceitos importantes que discutiremos a seguir:Agentes ou Jogadores: São as entidades que precisam tomar decisões em uma dada

situação. Por exemplo, essas entidades podem ser indivíduos, empresas, animais, países,times, sindicatos, etc.

Grupo: Em geral, assume-se que jogos contém mais de um agente. Se a situação contémapenas um agente, o jogo se transforma em uma problema de decisão.

Interação: Deve existir pelo menos um agente cujas decisões influencie nas decisõesde algum outro agente do grupo, caso contrário, tem-se uma série de problemas de decisãoindependentes.

Estrategicamente: Agentes levam em conta as interdependências entre suas escolhasquando tomando suas decisões.

Racionais: Agentes levam em conta a interdependência entre suas escolhas e agem deforma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dadoconhecimento de como outros agentes do grupo se comportam.

No sentido usual um jogo é uma atividade competitiva no qual jogadores disputam unscom os outros de acordo com um conjunto de regras. O escopo de aplicações de teoria dosjogos é bem maior do que esses jogos. Por exemplo, podemos utilizar teoria dos jogos paramodelar: firmas que competem por um mercado, políticos competindo por votos, membros deum juri decidindo sobre um veredito, animais brigando por uma presa, pessoas competindoem um leilão, etc.

Exemplo 1.1.2: Assuma que 6 pessoas vão a um bar. Se cada uma delas paga sua própriaconta, temos 6 problemas de decisão. Se elas rateiam a conta igualmente, temos um problemade teoria dos jogos.

Uma análise por Teoria dos Jogos começa com uma idéia relacionada a algum aspectosobre uma interação entre agentes. Nós expressamos essa idéia precisamente através de um

1

Page 7: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

1.2. EXPERIMENTOS DE MOTIVAÇÃO 2

modelo, incluindo aspectos da situação que parecem ser relevantes. Esta etapa é a arte demodelagem. Em geral, precisamos de um modelo rico o suficiente para que possamos obterresultados não-triviais, mas não tão detalhado que nos levem a complicações desnecessáriasna nossa análise do modelo, a próxima etapa. Esta análise pode confirmar ou não nossasintuições sobre a situação. Se nossa intuição estiver realmente errada, a análise pode nosajudar a entender por que ela está errada. Caso contrário, podemos chegar a conclusão queuma suposição do modelo foi inapropriada, ou que um elemento importante está faltandono modelo. Enfim, poderemos tentar estudar a situação com um outro modelo ou chegara conclusão que nossa intuição não era válida. Portanto, tanto nossas intuições podemesclarecer que algumas suposições do modelo não são apropriadas, como a análise do modelopode esclarecer que nossa intuição não fazia sentido. Em ambas as situações, o processo deformulação e análise do modelo melhorará nosso entendimento sobre a situação que estamosconsiderando.

1.2 Experimentos de MotivaçãoExperimento 1: Suponha que urna A contém 100 bolas, sendo 90 brancas, 6 vermelhas, 1verde, e 3 amarelas. Uma urna B contém 100 bolas, sendo 90 brancas, 7 vermelhas, 1 verdee 2 amarelas. Você tem que escolher entre sortear uma bola da urna A ou da urna B. Seuma bola é retirada da urna A, você recebe R$0 se a bola for branca, R$45 se a bola forvermelha, R$30 se a bola for verde e você tem que pagar R$15 se a bola for amarela. Seuma bola é retirada da urna B, você recebe R$0 se a bola for branca, R$45 se a bola forvermelha, você têm que pagar R$10 se a bola for verde e pagar R$15 se a bola for amarela.O que você prefere?Experimento 2: Cada um de vocês (estudantes neste curso) tem de escolher um númerointeiro entre 0 e 100. Suponha que duplas de estudantes serão formadas aleatoriamente e decada dupla sairá vencedor o estudante que escolher o maior inteiro que não for maior que2/3 da média dos dois números escolhidos pela dupla. Escolha o seu número e justifique asua escolha.

Experimento 3: Cada um de vocês (estudantes neste curso) tem de escolher um númerointeiro entre 0 e 100. Cada estudante que escolher o maior inteiro que não for maior que 2/3da média de todas as respostas ganhará um bilhete premiado da Mega-sena. Escolha o seunúmero e justifique a sua escolha.

Experimento 4: Imagine que você é um dos jogadores no seguinte jogo envolvendo duaspessoas:

• Cada um dos jogadores tem que escolher uma quantidade entre R$180 e R$300.

• Ambos jogadores recebem o pagamento igual a menor das duas quantidades escolhidas.

• R$50 reais são transferidos do jogador que escolher a quantidade maior para o jogadorque escolher a quantidade menor.

Autor: Leandro Chaves Rêgo

Page 8: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

1.2. EXPERIMENTOS DE MOTIVAÇÃO 3

• No caso em que ambos jogadores escolhem mesma quantidade, eles recebem esta quan-tidade e nenhuma transferência é feita.

Escolha sua quantidade e justifique sua escolha.

Experimento 5: Cada um de vocês participarão em um leilão para um carro de valor demarcado de R$100.000,00 (cem mil reais). A regra do leilão é a seguinte: para participardo leilão você terá que pagar R$50,00 e fazer uma oferta em valores inteiros de reais paraarrematar o carro. Ganha o carro a pessoa com a menor oferta única. Escolha sua oferta ejustifique a sua escolha.

Experimento 6: Você está participando em um jogo com 4 outros jogadores. No jogo, cadajogador recebe R$100,00 reais. Você tem que decidir como distribuir este dinheiro entre doisfundos de investimento diferentes:

1. Seu fundo pessoal: para cada real que você investe em seu fundo pessoal, somente vocêreceberá R$4,00 reais.

2. Fundo participativo: para cada real que qualquer jogador investir neste fundo par-ticipativo, todos os jogadores receberão R$2,00, independentemente de quanto cadajogador tenha ele próprio investido neste fundo.

Você pode distribuir o dinheiro da maneira que você desejar. Diga quantos reais você inves-tirá no fundo participativo e justifique sua escolha.

Autor: Leandro Chaves Rêgo

Page 9: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 2

Jogos de Uma Pessoa - Teoria da Decisão

2.1 Escolha sob Certeza.Neste capítulo, nós estudamos a teoria da decisão ou teria da escolha racional que pode servista como um jogo onde o decisor joga com ele mesmo. Agentes frequentemente enfrentamsituações nas quais eles têm que tomar uma decisão. As ações dos outros agentes nãoinfluenciam minhas preferências sobre as opções disponíveis. Portanto, não existe interaçãoestratégica envolvida. Jogos propriamente ditos serão discutidos nos capítulos seguintes.

2.1.1 Relações Binárias

Para um dado conjunto X, denotamos por X × X o produto Cartesiano usual, ou seja, oconjunto contendo todos os pares ordenados (x, y), onde x e y pertencem a X.

Definição 2.1.1: Uma relação binária B no conjunto X é formalmente definida como umsubconjunto de X × X, e (x, y) ∈ B se o par ordenado (x, y) satisfaz a relação B. Umaoutra maneira de escrever (x, y) ∈ B é xBy. Se (x, y) /∈ B, escreveremos ¬xBy.

Exemplo 2.1.2:

1. Seja X o conjunto de todas as pessoas nesta disciplina e seja B a relação “é maisvelho(a) que”;

2. Seja X o conjunto de todos os times de futebol do país e seja B a relação “tem maistítulos nacionais que”;

3. Seja X = IR e seja B a relação xBy se y = x2;

4. Seja X = a, b, c e seja B = (b, a), (c, a), (a, a).

Existem várias propriedades que uma dada relação binária pode ou não satisfazer. Umarelação binária em X pode ser:

4

Page 10: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.1. ESCOLHA SOB CERTEZA. 5

• reflexiva se xBx, ∀x ∈ X;

• irreflexiva se ¬xBx, ∀x ∈ X;

• simétrica se xBy implica yBx;

• assimétrica se xBy implica ¬yBx;

• anti-simétrica se xBy e yBx implicam x = y;

• transitiva se xBy e yBz implicam xBz;

• negativamente transitiva se ¬xBy e ¬yBz implicam ¬xBz;

• completa ou conectada se para todo x, y ∈ X, xBy ou yBx;

• fracamente conectada se para todo x, y ∈ X, x = y, xBy, ou yBx;

• acíclica se x1Bx2, x2Bx3, . . . , xn−1Bxn implica x1 = xn.

Existem algumas relações importantes entre essas propriedades. Antes vamos provar oseguinte lema que caracteriza a propriedade da transitividade negativa.

Lema 2.1.3: Uma relação binária B é negativamente transitiva se, e somente se, xBzimplica que, para todo y ∈ X, xBy ou yBz.

Prova: Note que afirmar que [xBz implica que, para todo y ∈ X, xBy ou yBz] é equivalentea afirmar que [se existe y ∈ X tal que ¬xBy e ¬yBz, então ¬xBz], mas a última afirmaçãoé a definição de transitividade negativa.

Corolário 2.1.4: Se uma relação binária B é negativamente transitiva, então para todox, y ∈ X, temos (1) xBy, (2) yBx, ou (3) para todo z ∈ X, (a) xBz se, e somente se, yBz,e (b) zBx se, e somente se, zBy.

Prova: Exercício.

Lema 2.1.5: Se uma relação binária B é assimétrica e negativamente transitiva, então elaé (a) irreflexiva, (b) transitiva e (c) acíclica.

Prova: Para parte (a), suponha por contradição que B não fosse irreflexiva, então existex ∈ X tal que xBx. Assimetria então implica que ¬xBx, absurdo.

Para parte (b), suponha que xBy e yBz. Como B é negativamente transitiva, Lema 2.1.3implica que como xBy, então zBy ou xBz. Como yBz e B é assimétrica sabemos que ¬zBy,portanto xBz, ou seja, B é transitiva.

Para parte (c), se x1Bx2, x2Bx3, . . . , xn−1Bxn, transitividade implica que x1Bxn. ComoB é irreflexiva, isto implica que x1 = xn. Portanto, B é acíclica.

Autor: Leandro Chaves Rêgo

Page 11: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.1. ESCOLHA SOB CERTEZA. 6

Exemplo 2.1.6: Seja Z∗ o conjunto dos inteiros não nulos e seja B a relação em Z∗ × Z∗

definida por (a, b)B(c, d) sempre que ad = bc. Vamos provar que B é uma relação reflexiva,simétrica e transitiva.

(i) Reflexividade: temos (a, b)B(a, b), já que ab = ba. Portanto, B é reflexiva.

(ii) Simetria: temos (a, b)B(c, d). Então ad = bc. Por conseguinte, cb = da e, portanto,(c, d)B(a, b). Assim, B é simétrica.

(iii) Transitividade: suponha (a, b)B(c, d) e (c, d)B(e, f). Então, ad = bc e cf = de.A multiplicação dos termos correspondentes da equação leva a (ad)(cf) = (bc)(de).Cancelando c = 0 e d = 0 dos dois lados da equação, obtém-se af = be, e portanto(a, b)B(e, f). Logo, B é transitiva.

2.1.2 Relação de Preferência

Nesta seção, suponha que existe um conjunto de objetos X e um agente que é capaz de fazercomparações desses objetos par a par da seguinte maneira, “Eu prefiro estritamente x a y”,que representaremos por x ≻ y. Note que estas comparações definem uma relação binária.Usaremos a notação x y para representar ¬x ≻ y.

Definição 2.1.7: Uma relação binária ≻ em um conjunto X é chamada de relação depreferência se ela for assimétrica e negativamente transitiva.

Note que o Lema 2.1.5 implica que toda relação de preferência é irreflexiva, transitiva eacíclica. É natural requerer que esta relação de preferência estrita satisfaça assimetria, poisse o agente prefere estritamente x a y, ele não deve preferir estritamente y a x. Apesar deser usual requerer que uma relação de preferência satisfaça a transitividade negativa, estapropriedade pode em alguns casos não parecer razoável. Por exemplo, suponha que X =(0,∞)× (0,∞), onde (x1, x2) ∈ X pode ser interpretado como uma cesta com x1 cachorrosquentes e x2 fatias de bolos, um agente pode por exemplo preferir (10, 10) estritamente a(9, 9), mas não ser capaz de afirmar que (10, 10) ≻ (15, 6) ou que (15, 6) ≻ (9, 9), ele podealegar que estas comparações são muito difíceis para ele fazer. Apesar disto, prosseguiremoscom a suposição usual que toda relação de preferência é negativamente transitiva.

Dada uma relação de preferência que expressa preferência estrita, podemos definir outrasduas relações binárias:

• x ≽ y, se y x;

• x ∼ y, se x y e y x.

A relação ≽ é conhecida como preferência fraca, embora ela apenas expresse a faltade preferência estrita. A relação ∼ é chamada de indiferença, ela expressa ausência depreferência estrita entre dois objetos, o que às vezes pode ser diferente de indiferença.

Autor: Leandro Chaves Rêgo

Page 12: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.1. ESCOLHA SOB CERTEZA. 7

Proposição 2.1.8: Se ≻ é uma relação de preferência, então

(a) Para todo x e y, exatamente uma dessas relações é válida: x ≻ y, y ≻ x, ou x ∼ y.

(b) ≽ é completa e transitiva.

(c) ∼ é reflexiva, simétrica, e transitiva.

(d) w ≻ x, x ∼ y, y ≻ z implicam w ≻ y e x ≻ z.

(e) x ≽ y se, e somente se, x ≻ y ou x ∼ y.

(f) x ≽ y e y ≽ x implicam x ∼ y.

Prova: (a) segue da definição de ∼ e do fato que ≻ é assimétrica. Para (b) note que aassimetria de ≻ implica que, x y ou y x para todo x e y, portanto ≽ é completa. Paratransitividade de ≽, note que esta segue diretamente da transitividade negativa de ≻. Para(c), note que ∼ é reflexiva por que ≻ é irreflexiva. ∼ é simétrica por que a definição de ∼ ésimétrica. Para transitividade, suponha que x ∼ y ∼ z. Então, x y z e z y x. Pelatransitividade negativa de ≻, temos que x ∼ z ∼ x, ou x ∼ z. Para parte (d), assuma quew ≻ x ∼ y. Pela parte (a), temos que w ≻ y, y ≻ w, ou w ∼ y. Porém y ≻ w não é possível,pois a transitividade de ≻ implicaria y ≻ x, contrariando a suposição que x ∼ y. w ∼ ytambém é impossível, pois a transitividade e simetria de ∼ implicaria w ∼ x, contrariandoa hipótese que w ≻ x. Logo, w ≻ y tem que ser verdadeiro. A outra parte é similar. Paraparte (e), note que por definição x ≽ y se, e somente se, y x. Mas a parte (a) implicaque a última condição ocorre se, e somente se, x ≻ y ou x ∼ y. Finalmente, parte (f), segueimediatamente das definições de ≽ e ∼.

Observe que nosso agente expressa apenas preferências estritas, a partir das quais nósderivamos preferência fraca e indiferença. O agente em nenhum momento expressa relaçõesde indiferença ou preferência fraca diretamente e ele pode até discordar da terminologia quenós utilizamos para as relações ≽ e ∼.

2.1.3 Representação Ordinal

Estamos interessados em relações de preferência que possam ser representadas por umafunção de utilidade u : X → IR no seguinte sentido:

x ≻ y se, e somente se, u(x) > u(y), ∀x, y ∈ X. (2.1)

O teorema a seguir afirma que uma relação binária precisa ser uma relação de preferência afim de que possa ser representada por uma função de utilidade.

Teorema 2.1.9: Seja X finito ou enumerável. Uma relação binária pode ser representadapor uma função de utilidade u no sentido de (2.1) se, e somente se, for uma relação depreferência.

Autor: Leandro Chaves Rêgo

Page 13: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.1. ESCOLHA SOB CERTEZA. 8

Prova: Suponha que existe tal função u que represente a relação binária. Suponha quex ≻ y, como u representa ≻ segue que u(x) > u(y). Logo, como u representa ≻, segue quey x, pois caso contrário teríamos u(y) > u(x). Logo, ≻ é assimétrica. Se x y e y z,então u(x) ≤ u(y) e u(y) ≤ u(z). Portanto, u(x) ≤ u(z), então como u representa ≻, temosque x z, ou seja, ≻ é transitiva negativa.

Para a prova da recíproca suponha que ≻ é uma relação de preferência, e para todox ∈ X, defina X(x) = y ∈ X : y ≻ x e X(x) = y ∈ X : x ≻ y. Seja x1, x2, . . . umaenumeração qualquer de X. Então defina, r(xn) = 1/2n e

u(x) =∑

y∈X(x)

r(y)−∑

y∈X(x)

r(y). (2.2)

Como∑

y∈X r(y) = 1, u(x) está bem definido e u(x) ∈ (−1, 1). Note que pela Proposi-ção 2.1.8(d), se x ≽ x′, então X(x) ⊆ X(x′) e X(x) ⊇ X(x′). Além disso, se x ≻ x′, temosque x ∈ X(x′), x /∈ X(x), x′ ∈ X(x) e x′ /∈ X(x′); logo ambas as relações de inclusão sãoestritas. Como r(y) > 0, ∀y ∈ X, segue que se x ≽ x′, então u(x) ≥ u(x′) e que se x ≻ x′,então u(x) > u(x′). Portanto, x ≻ x′ se, e somente se, u(x) > u(x′).

O próximo teorema implica que a função utilidade u é única exceto por uma transfor-mação estritamente crescente. Por este motivo, essas funções utilidades são chamadas defunções de utilidade ordinais.

Teorema 2.1.10: Dado um conjunto X, uma relação de preferência ≻ e funções u e u′ querepresentam ≻ no sentido de (2.1), então existe uma função f : IR → IR tal que

(a) f é estritamente crescente em r : ∃x ∈ X, r = u(x) e

(b) u′(x) = f(u(x)),∀x ∈ X.

Além disso, para qualquer função estritamente crescente g : IR → IR, u′′(x) = g(u(x)),∀x ∈X também representa ≻.

Prova: Exercício.

Quando X for não-enumerável, algumas relações de preferência podem não ser repre-sentadas por nenhuma função de utilidade. Por exemplo, considere X = [0, 1] × [0, 1], edefina

(x1, x2) ≻ (y1, y2) se x1 > y1 ou [x1 = y1 e x2 > y2].

Esta é uma relação de preferência (Exercício). Esta relação é conhecida como preferêncialexicográfica. Esta relação não pode ser representada por uma função utilidade. Suponha,por contradição, que u represente ≻. Então, para todo r ∈ [0, 1], é o caso que (r, 1) ≻ (r, 0),portanto u((r, 1)) > u((r, 0)). Seja d(r) = u((r, 1)) − u((r, 0)). Logo, d(r) > 0, ∀r ∈ [0, 1].Então,

[0, 1] = ∪∞n=1r : d(r) > 1/n.

Note que o lado esquerdo da igualdade é não enumerável. Como o lado direito é umaunião enumerável de conjuntos, pelo menos um deles deve ser não enumerável. Suponha

Autor: Leandro Chaves Rêgo

Page 14: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.1. ESCOLHA SOB CERTEZA. 9

que r : d(r) > 1/n0 é não enumerável. Seja u((1, 1)) − u((0, 0)) = K, e seja N uminteiro maior que Kn0 + 1. Escolha um subconjunto r1, r2, . . . , rN de N elementos der : d(r) > 1/n0 de tal forma que r1 < r2 · · · < rN . Como (rn, 0) ≻ (rn−1, 1), sabemos queu((rn, 0)) > u((rn−1, 1)). Portanto,

u((rn, 0))− u((rn−1, 0)) > u((rn−1, 1))− u((rn−1, 0)) > 1/n0.

Finalmente,

K = u((1, 1))− u((0, 0))

= [u((1, 1))− u((rN , 0))] + [u((rN , 0))− u((rN−1, 0))] + · · ·+[u((r2, 0))− u((r1, 0))] + [u((r1, 0))− u((0, 0))]

> 0 + 1/n0 + 1/n0 + · · ·+ 1/n0 + 0 > (N − 1)/n0 > K.

Uma contradição.Recorde que um espaço métrico é um conjunto M onde pode-se definir uma distância

d(x, y) entre quaisquer dois pontos x, y ∈ M que satisfaz:

(a) d(x, y) ≥ 0 e d(x, y) = 0 se, e somente se, x = y.

(b) d(x, y) = d(y, x).

(c) d(x, z) ≤ d(x, y) + d(y, z).

Um espaço métrico M é separável, se ele contém um subconjunto enumerável M0 e Mé igual a união de M0 e todos os pontos de acumulação de M0.1 Por exemplo, IRn é umespaço métrico separável, onde M0 é conjunto de todas as n-tuplas onde cada componente éum número racional.

Definição 2.1.11: Uma relação binária ≻ definida em um espaço métrico separável X écontínua se para todas as (xn) de X com xn → x, (a) se x ≻ y para algum y ∈ X, entãopara todo n grande o suficiente, xn ≻ y; e (b) se y ≻ x para algum y ∈ X, então para todon grande o suficiente, y ≻ xn.

Se as preferências forem contínuas, elas podem ser representadas por uma função deutilidade (contínua) mesmo quando X for não-enumerável.

Teorema 2.1.12: Seja X um subconjunto de um espaço métrico separável. Uma relaçãobinária em X pode ser representada por uma função de utilidade contínua u : X → IR nosentido de (2.1) se, e somente se, for uma relação de preferência contínua.

Prova: Omitida.2

1a ∈ M é um ponto de acumulação de um subconjunto N ⊆ M , se existe uma sequência de elementosde N que converge para a, ou seja, é um ponto do espaço M que pode ser aproximado tão bem quanto sequeira por infinitos pontos do subconjunto N . Note que a pode ou não pertencer a N .

2Para maiores detalhes da prova consultar, por exemplo, Debreu G. (1954), Representation of a PreferenceOrdering by a Numerical Function, http://cowles.econ.yale.edu/P/cp/p00b/p0097.pdf .

Autor: Leandro Chaves Rêgo

Page 15: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 10

2.2 Escolha sob Incerteza.Quando um jogador escolhe entre suas estratégias, ele não sabe quais estratégias os outrosjogadores escolheram, por isso não tem certeza quanto às consequências de suas escolhas.Para analisar as decisões dos jogadores em um jogo, seria útil então ter uma teoria detomada de decisão que nos permita expressar as preferências de um agente sobre escolhascom consequências incertas em termos de sua atitude perante as consequências.

2.2.1 Regras de Decisão

Existem muitas regras de decisão que podem ser adotadas dependendo da situação por umagente que tem que realizar uma escolha sob incerteza. Assumiremos que o agente escolheações que são funções do estado da natureza para consequências ou prêmios e que o agenteé capaz de determinar qual a utilidade dessas consequências, onde um estado da natureza éuma descrição de todos os aspectos do mundo relevantes ao problema de decisão. Algumasregras requerem que o agente seja capaz de determinar uma probabilidade sobre o espaço dosestados da natureza, outras não precisam desta descrição probabilística e podem ser usadasem casos onde tal informação não é disponível ao agente. Assumiremos de agora em dianteque o conjunto S de estados da natureza é finito, e que todas as probabilidades são definidasna σ-álgebra 2S.

Maximin

Esta é uma regra conservadora. Ela determina escolher a ação que se dá melhor no piorcenário possível, ou seja, tentar fazer o melhor na pior situação que poderia acontecer.Formalmente, dado uma ação a ∈ A, defina

pioru(a) = minua(s) : s ∈ S.

• pioru(a) é a utilidade da pior consequência possível para a ação a

A regra de Maximin estabelece que a ≻ a′ se, e somente se, pioru(a) > pioru(a′).Considere o seguinte exemplo onde as ações são descritas em uma matriz que estabelece

a utilidade de cada consequência em cada estado da natureza possível.

Exemplo 2.2.1:

s1 s2 s3 s4a1 5 0∗ 0∗ 2a2 −1∗ 4 3 7a3 6 4 4 1∗

a4 5 6 4 3∗

Se utilizarmos a regra de Maximin, temos a4 ≻ a3 ≻ a1 ≻ a2. Se o agente porém achasseque o estado s4 é bem mais provável que os outros estados esta regra não seria mais adequada.

Autor: Leandro Chaves Rêgo

Page 16: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 11

Maximax

Esta é a regra para os otimistas. Ela determina escolher a ação que é melhor no melhor cená-rio possível, ou seja, faça o melhor esperando que o melhor possível irá ocorrer. Formalmente,dada uma ação a ∈ A, defina

melhoru(a) = maxua(s) : s ∈ S.

• melhoru(a) é a utilidade da melhor consequência para a ação a;

A regra de Maximax estabelece que a ≻ a′ se, e somente se, melhoru(a) > melhoru(a′).

Exemplo 2.2.2: Considere novamente as ações do Exemplo 2.2.1:

s1 s2 s3 s4a1 5∗ 0 0 2a2 -1 4 3 7∗

a3 6∗ 4 4 1a4 5 6∗ 4 3

Se utilizarmos a regra de Maximax, temos a2 ≻ a4 ∼ a3 ≻ a1.

Regra Otimismo-Pessimismo

A idéia desta regra é fazer uma média ponderada entre o melhor e o pior cenário onde o pesodepende de quão otimista o agente é. Defina optαu(a) = αmelhoru(a)+ (1−α)pioru(a). Noteque se α = 1, temos a regra de Maximax; se α = 0, temos Maximin; e, em geral, α medequão otimista o agente é.

A regra de otimismo-pessimismo estabelece que dado α, a ≻ a′ se, e somente se, optαu(a) >optαu(a′).

Esta regra é estranha se pensarmos probabilisticamente, pois pioru(a) coloca probabili-dade 1 no estado que corresponde ao pior cenário segundo a. E este cenário pode ser diferentepara ações diferentes! Mais geralmente, optαu coloca probabilidade α no estado que corres-ponde ao melhor cenário segundo a, e coloca probabilidade 1−α no estado que correspondeao pior cenário segundo a.

Minimax Arrependimento

A idéia desta regra é minimizar quão arrependido o agente ficará quando ele descobrir overdadeiro estado da natureza. É a regra que captura o que sentimos quando dizemos: “eugostaria de ter escolhido a”. Formalmente, para cada estado s, seja as a ação com a melhorconsequência em s.

arrependimentou(a, s) = uas(s)− ua(s)arrependimentou(a) = maxs∈S arrependimentou(a, s)

Autor: Leandro Chaves Rêgo

Page 17: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 12

• arrependimentou(a) é o maior arrependimento que agente poderia ter se ele escolher aação a.3

A regra de Minimax arrependimento estabelece que a ≻ a′ se, e somente se,

arrependimentou(a) < arrependimentou(a′).

Exemplo 2.2.3: Considere mais uma vez as ações do Exemplo 2.2.1:

s1 s2 s3 s4a1 5 0 0 2a2 −1 4 3 7∗

a3 6∗ 4 4∗ 1a4 5 6∗ 4∗ 3

Podemos então, determinar a melhor ação em cada estado da natureza.

• as1 = a3; uas1(s1) = 6

• as2 = a4; uas2(s2) = 6

• as3 = a3 (e a4); uas3(s3) = 4

• as4 = a2; uas4(s4) = 7

Desta forma, o maior arrependimento de cada ação é dado por:

• arrependimentou(a1) = max(6− 5, 6− 0, 4− 0, 7− 2) = 6

• arrependimentou(a2) = max(6− (−1), 6− 4, 4− 3, 7− 7) = 7

• arrependimentou(a3) = max(6− 6, 6− 4, 4− 4, 7− 1) = 6

• arrependimentou(a4) = max(6− 5, 6− 6, 4− 4, 7− 3) = 4

Se utilizarmos a regra de Minimax arrependimento, temos a4 ≻ a1 ∼ a3 ≻ a2.

3Existe também uma noção multiplicativa de arrependimento, onde o arrependimento em um estado s édefinido como sendo a razão entre o melhor que o agente poderia escolher quando o verdadeiro estado é s ea ação que ele está considerando.

Autor: Leandro Chaves Rêgo

Page 18: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 13

Efeito de Transformações

Na seção de escolha sob certeza, vimos que a escolha do agente não se alteraria se a funçãoutilidade sofresse qualquer transformação estritamente crescente. Vamos analisar agora oque ocorre com as regras de decisão Maximin, Maximax, Otimismo-Pessimismo e Minimaxarrependimento.

Proposição 2.2.4: Seja f : IR → IR uma função estritamente crescente:

• maximin(u) = maximin(f(u))

• maximax(u) = maximax(f(u))

• optα(u) pode não ser o mesmo que optα(f(u))

• arrependimento(u) pode não ser o mesmo que arrependimento(f(u)).

Prova: Exercício.

Proposição 2.2.5: Seja f : IR → IR, onde f(x) = ax+ b, e a > 0. Então

• maximin(u) = maximin(f(u))

• maximax(u) = maximax(f(u))

• optα(u) = optα(f(u))

• arrependimento(u) = arrependimento(f(u))

Prova: Exercício.

Ações “Irrelevantes”

Suponha que A = a1, . . . , an e, que de acordo com alguma regra de decisão, a1 ≻ a2. Podeacontecer que adicionando uma nova possível ação, possamos reverter esta preferência? Ouseja, suponha que A′ = A ∪ a. É possível que agora tenhamos segundo a mesma regrade decisão anterior que a2 ≻ a1? No caso das regras de Maximin, Maximax, e optα não(Exercício). Contudo, no caso da regra de Minimax arrependimento isto é possível. A novaação pode alterar quem é a melhor ação em um dado estado e desta forma alterar todos oscálculos.

Exemplo 2.2.6: Suponha que tenhamos as seguintes ações:

s1 s2a1 8 1a2 2 5

Autor: Leandro Chaves Rêgo

Page 19: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 14

Portanto, temos

arrependimentou(a1) = 4 < arrependimentou(a2) = 6, ou seja,

a1 ≻ a2.

Porém, suponha agora que acrescentemos a ação a3:s1 s2

a1 8 1a2 2 5a3 0 8

Agora, temos

arrependimentou(a2) = 6 < arrependimentou(a1) = 7 < arrependimentou(a3) = 8, ou seja,

a2 ≻ a1 ≻ a3.

O Princípio da Razão Insuficiente

Considere o seguinte exemplo:

s1 s2 s3 s4 s5 s6 s7 s8 s9a1 9 9 9 9 9 9 9 9 0a2 9 0 0 0 0 0 0 0 9

Nenhuma das regras de decisão anteriores são capazes de distinguir a1 e a2. Porém, muitaspessoas achariam a1 melhor, pois argumentam que é mais provável que esta ação proporcioneuma melhor consequência já que na maioria dos estados ela é melhor. Formalmente, sejaua(s) = u(a(s)), a utilidade da ação a no estado s. ua é uma variável aleatória. SejaPr a distribuição uniforme em S, ou seja, estamos assumindo que todos os estados sãoequiprováveis, pois não existe razão para supor que um dos estados seja mais provável queos outros. Seja EPr(ua) o valor esperado de ua.

Esta regra estabelece que a ≻ a′ se, e somente se, EPr(ua) > EPr(u′a).

Existe um problema com este modelo, pois ele é sensível a escolha dos estados. Porexemplo, suponha que dividamos s9 em 20 outros estados, neste caso considerando os 28estados equiprováveis teríamos que a2 seria melhor. Outro problema é que nem sempreé justificável assumir que os estados são equiprováveis, isto requer uma informação que oagente não possui.

Maximização da Utilidade Esperada

Suponha agora que tenhamos uma distribuição de probabilidade Pr nos estados, podemosentão calcular a utilidade esperada de cada ação a:

EPr(ua) = Σs∈S Pr(s)ua(s).

A regra da Maximização da Utilidade Esperada (MUE) estabelece que a ≻ a′ se, somentese, EPr(ua) > EPr(ua′).

Autor: Leandro Chaves Rêgo

Page 20: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 15

Minimização do Arrependimento Esperado

Recorde que as é a ação com melhor consequência no estado s.

arrependimentou(a, s) = uas(s)− ua(s)arrependimentou(a) = maxs∈S arrependimentou(a, s)

Dada uma probabilidade Pr nos estados, o arrependimento esperado de a é

EPr(arrependimentou(a, ·)) = Σs∈S Pr(s)arrependimentou(a, s)

A regra da Minimização do Arrependimento Esperado (MAE) estabelece que a ≻ a′ se,somente se, EPr(arrependimentou(a, ·)) < EPr(arrependimentou(a′, ·)).

Teorema 2.2.7: MUE and MAE são regras de decisão equivalentes, ou seja, a ≻MUE a′ se,e somente se, a ≻MAE a′.

Prova: Seja u′ = −u. Logo, maximizar EPr(ua) é equivalente a minimizar EPr(u′a). Seja

uv(a, s) = u′(a, s) + v(s), onde v : S → IR é arbitrário. Minimizar EPr(u′a) é equivalente a

minimizar EPr(uva), pois somente adicionamos a mesma constante (EPr(v)) ao valor esperado

de u′a, para cada ação a. Escolhendo v(s) = u(as), temos que EPr(u

va) é o arrependimento

esperado de a.

A pergunta obvia é de onde podemos extrair esta probabilidade envolvida nas regras deMUE e MAE. Se houver dados suficientes, podemos estimar tais probabilidades utilizandométodos estatísticos. Pode-se também tentar elicitar uma probabilidade subjetiva do agente.Existem outras regras que adotam um conjunto de medidas de probabilidade para representara incerteza do agente.

Regras que Utilizam um Conjunto de Medidas de Probabilidade

Considere que jogamos uma moeda honesta. Uma maneira razoável de representar a incertezado agente é com a medida de probabilidade Pr1/2:

Pr1/2(cara) = Pr1/2(coroa) = 1/2.

Agora suponha que não se sabe o viés da moeda. Como devemos representar a in-certeza do agente sobre o resultado do lançamento desta moeda? Podemos ainda utili-zar Pr1/2. Porém, note que representar a incerteza do agente por esta medida de proba-bilidade implica assumir que o agente acredita que se esta moeda for jogada várias ve-zes aproximadamente metade das vezes ele obterá cara. Como o agente não dispõe detal informação, parece mais razoável utilizar um conjunto de medidas de probabilidadePrp : p ∈ [0, 1], onde Prp(cara) = p para representar a incerteza do agente. Vamosagora estudar algumas regras de decisão que supõe que o agente representa sua incerteza arespeito do verdadeiro estado da natureza por um conjunto de medidas de probabilidade.

Dado um conjunto P de medidas de probabilidade, defina

EP(ua) = infPr∈P

EPr(ua) : Pr ∈ P.

Autor: Leandro Chaves Rêgo

Page 21: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 16

Considere a regra de decisão 1 que estabelece que a ≻1P a′ se, e somente se, EP(ua) >

EP(ua′). A intuição por trás desta primeira regra é parecida com a regra de Maximin,pois estamos otimizando o pior valor esperado possível. De fato, se PS consiste de todasmedidas de probabilidade em S, então EPS

(ua) = pioru(a). Note que a ordem de preferênciasegundo a regra Maximin coincide com ≻1

PS. Contudo, em geral, ≻1

P pode tirar vantagemde informações extras, se P for um subconjunto estrito de PS.

Podemos também definir uma regra que tem a mesma intuição por trás da regra deMaximax, ou seja, maximizaremos o melhor valor esperado. Para tanto, defina EP(ua) =supPr∈PEPr(ua) : Pr ∈ P. Esta regra de decisão 2 estabelece que a ≻2

P a′ se, e somente se,EP(ua) > EP(ua′).

Podemos ainda definir uma outra regra de decisão segundo a qual uma ação a só é melhorque uma outra ação a′ se o pior valor esperado da ação a for melhor que o melhor valoresperado segundo a′. Esta regra de decisão é extremamente conservadora. Formalmente,esta regra de decisão 3 estabelece que a ≻3

P a′ se, e somente se, EP(ua) > EP(ua′).Finalmente, pode-se definir uma quarta regra de decisão segundo a qual ação a é melhor

que outra ação a′ se para toda medida de probabilidade Pr ∈ P temos que o valor esperadode a segundo Pr é maior que o valor esperado de a′ segundo Pr. Formalmente, temos quea ≻4

P a′ se, e somente se, EPr(ua) > EPr(ua′),∀Pr ∈ P .

Proposição 2.2.8: a ≽3P a′ implica a ≽4

P a′.

Prova: Exercício.

2.2.2 Qual a Regra “Correta”?

Uma maneira de determinar a regra correta é caracterizar as regras através de axiomas, ouseja, caracterizar que propriedades uma relação de preferência sobre as ações deve satisfazerde modo que ela possa ser representada por MUE, Maximin, Minimax arrependimento, . . . .Veremos uma caracterização axiomática da regra MUE na Seção 2.2.3. Podemos tambémconsiderar exemplos.

Exemplo 2.2.9: Rawls vs. HarsanyiQual de duas sociedades cada uma com 1000 pessoas é melhor:

• Sociedade 1: 900 pessoas têm utilidade 90, 100 têm utilidade 1.

• Sociedade 2: todos têm utilidade 35.

Transformando em um problema de decisão, temos duas ações:

1. viver na Sociedade 1

2. viver na Sociedade 2

Podemos ainda descrever 1000 estados, onde no estado i, o agente será a pessoa i. Rawlsafirma que devemos usar a regra de Maximin para decidir, enquanto Harsanyi afirma quedevemos usar o princípio da razão insuficiente. E você o que decide?

Autor: Leandro Chaves Rêgo

Page 22: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 17

• Se você gostar de Maximin, considere Sociedade 1′, onde 999 pessoas têm utilidade100, e 1 tem utilidade 34. Neste caso, teríamos

Sociedade 2 ≻ Sociedade 1′ ≻ Sociedade 1.

Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 1′ que na Soci-edade 2.

• Se você preferir o princípio da razão insuficiente, considere Sociedade 1′′, onde 1 pessoatem utilidade 100.000, e 999 têm utilidade 1. Neste caso, teríamos

Sociedade 1′′ ≻ Sociedade 1 ≻ Sociedade 2.

Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 2 que na Soci-edade 1′′.

Suponha agora que o agente possa escolher ações aleatoriamente, isto é, a ação pa +(1 − p)a′ seja igual a “escolha a com probabilidade p e a′ com probabilidade 1 − p”. Porexemplo, você pode jogar uma moeda viesada para decidir o que fazer. Poderíamos esperarque se a ∼ a′, então a ∼ pa+ (1− p)a′. Porém, isto não é sempre verdadeiro para as regrasde Minimax, Maximax e Otimismo-Pessimismo se assumirmos que u(pa + (1 − p)a′, s) =pu(a, s) + (1− p)u(a′, s). Considere o seguinte exemplo:

Exemplo 2.2.10:

s1 s2a1 2 0a2 0 2

De acordo com a regra do otimismo-pessimismo a1 ∼ a2 (para todos os índices α).

• Mas a1 ∼ 12a1 +

12a2 (exceto quando α = 1/2).

Escolher aleatoriamente pode ser melhor dependendo da regra de decisão que se adota!

Note também que u(pa + (1− p)a′, s) = pu(a, s) + (1− p)u(a′, s) não é compatível comtransformação ordinal das utilidades. Por exemplo, se f(x) = x3, então f(1) = (f(0) +f(2))/2.

Recorde que as preferências podem se alterar quando consideramos a regra de minimizaro arrependimento e adicionamos uma nova ação “irrelevante”, isto é, podemos acrescentaração a3 e mudar a preferência entre a1 e a2.

Estes fatos sugerem que regras baseadas em argumentos probabilísticos devem ser me-lhores. Porém, note que não necessariamente temos que maximizar a utilidade esperadapara utilizar a probabilidade de maneira razoável. Considere por exemplo, o problema de

Autor: Leandro Chaves Rêgo

Page 23: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 18

aceitar ou não uma loteria que paga R$10.000, 00 com probabilidade 0,95 e onde você temque pagar R$200.000, 00 com probabilidade 0,05. Podemos adotar o procedimento de esco-lher a ação que nos garante o melhor resultado com probabilidade maior ou igual a 0,95.É isto que fazemos frequentemente quando adotamos intervalos de confiança de 0,95, ouquando, especificamos o nível de significância de um teste de hipótese. Podemos imaginarregras que utilizem outros tipos de informação, como variância, mediana, para determinarque ação escolher. Vimos também que em algumas situações podemos utilizar conjuntos deprobabilidades para modelar a incerteza e desta forma utilizar regras que se baseiam nesteconceito. Veremos na seção a seguir uma justificativa para utilização da regra da utilidadeesperada. Como veremos mais adiante é nesta regra que se baseiam diversos conceitos desoluções de jogos.

2.2.3 Representação Cardinal

Em jogos veremos que existem dois tipos de incerteza: subjetiva e objetiva. A incertezaobjetiva pode surgir, por exemplo, de dispositivos aleatórios como moedas honestas, dadosperfeitos, roletas balanceadas, urnas com bolas coloridas, etc. A incerteza subjetiva podesurgir, por exemplo, da ignorância de algum jogador com respeito as estratégias utilizadaspelos demais. Nesta seção seguiremos a teoria da escolha sob incerteza segundo Anscombee Aumann.

Considere um conjunto Z de consequências (ou prêmios). Seja S o conjunto de todosos estados da natureza ou estados do mundo. Assumiremos por simplicidade que Z e Ssão finitos. Dado um conjunto enumerável qualquer B denotaremos por ∆(B), o conjuntode todas as distribuições de probabilidade em (B, 2B). Tome um conjunto F de açõesf : S → ∆(Z) como o conjunto sobre o qual o agente terá que expressar preferências. Noteque a consequência de uma dada ação f depende do estado da natureza. Deste modo o agentepode ter incerteza subjetiva a respeito do verdadeiro estado da natureza e consequentementeincerteza subjetiva sobre as consequências de suas ações. Além disso, dado um estado danatureza f(s) descreve a incerteza objetiva com as quais cada consequência será obtida se oagente escolher a ação f e o verdadeiro estado da natureza for s.

Exemplo 2.2.11: Suponha que o agente é chamado a escolher entre duas ações. Se eleescolher a primeira, ganhará R$1000 se o Santa Cruz for o próximo campeão pernambucanode futebol, e não ganhará nada se o Santa Cruz não for o campeão. Se ele escolher a segundaação, ele ganhará R$1000 se uma moeda honesta cair cara quatro vezes em quatro jogadasindependentes, e não ganhará nada em caso contrário. Podemos representar isto utilizandonosso modelo segundo Anscombe e Aumann da seguinte maneira: Z = R$0, R$1000, S =s1, s2, onde s1 representa o estado em que o Santa é campeão, e s2 representa o estadoem que o Santa não é campeão. F = f1, f2, onde f1(s1)(R$1000) = 1, f1(s2)(R$0) = 1,f2(s1)(R$1000) = f2(s2)(R$1000) = (1/2)4 e f2(s1)(R$0) = f2(s2)(R$0) = 1− (1/2)4.

Abusaremos um pouco da notação e eventualmente para p ∈ ∆(Z) denotaremos por p aação constante que é igual a p em todos os estados da natureza. Para quaisquer duas açõesf, g ∈ F e para todo a ∈ [0, 1], seja af + (1− a)g a seguinte ação:

(af + (1− a)g)(s) = af(s) + (1− a)g(s),∀s ∈ S.

Autor: Leandro Chaves Rêgo

Page 24: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 19

Denotamos por f−sg a ação que é igual a g em s, e é igual a f nos demais estados da natureza.

Exemplo 2.2.12: Seja S = 1, 2, Z = 10, 15, 20, 25, 30, f(1)(10) = 0,5, f(1)(15) = 0,3,f(1)(20) = 0,2, f(2)(20) = 1, g(1)(20) = 0,5, g(1)(25) = 0,5, g(2)(20) = 0,6, e g(2)(30) =0,4. Então, se h = 0,6f + 0,4g, temos

h(1)(10) = 0,6f(1)(10) + 0,4g(1)(10) = 0,3

h(1)(15) = 0,6f(1)(15) + 0,4g(1)(15) = 0,18

h(1)(20) = 0,6f(1)(20) + 0,4g(1)(20) = 0,12 + 0,2 = 0,32

h(1)(25) = 0,6f(1)(25) + 0,4g(1)(25) = 0,2

h(2)(20) = 0,6f(2)(20) + 0,4g(2)(20) = 0,6 + 0,24 = 0,84

h(2)(30) = 0,6f(2)(30) + 0,4g(2)(30) = 0,16.

Se h′ = f−1g, temos

h′(1)(20) = g(1)(20) = 0,5

h′(1)(25) = g(1)(25) = 0,5

h′(2)(20) = f(2)(20) = 1

A princípio não é claro que existe alguma maneira de quantificar a incerteza subjetivado agente a respeito do verdadeiro estado da natureza. Além disso, mesmo que esta medidade incerteza exista não é claro se poderemos combiná-la com a maneira que o agente escolhediante do risco, ou seja, escolhe entre distribuições de probabilidade sobre as consequências,nem se tal medida de incerteza subjetiva é independente dos riscos envolvidos (estadosmais arriscados poderiam ter uma maior probabilidade subjetiva?). Verificaremos que seas preferências do agente satisfazem alguns axiomas de racionalidade, encontraremos umarepresentação da seguinte forma: Existem funções π : S → [0, 1] com

∑s∈S π(s) = 1 e

u : Z → IR tal que ∀f, f ′ ∈ Ff ≻ f ′ se, e somente se,∑

s∈S

π(s)[∑z∈Z

f(s)(z) · u(z)] >∑s∈S

π(s)[∑z∈Z

f ′(s)(z) · u(z)],

onde f(s)(z) representa a probabilidade que a ação f , quando o verdadeiro estado da natu-reza é s, dá a consequência z.

Ou seja, estamos interessados em um representação onde cada estado da natureza possuiuma probabilidade associada que é independente das probabilidades sobre as consequênciase cada consequência possui uma utilidade u de tal forma que a escolha entre as ações étomada de acordo com a utilidade esperada da função utilidade u.

Um estado da natureza s é dito ser nulo se f ∼ g para todos os pares de ações f, g ∈ Fque são iguais em todos os estados da natureza exceto possivelmente em s, ou seja, umestado s é nulo se não podemos encontrar ações que diferem apenas no estado s e que nãosejam indiferentes.

Autor: Leandro Chaves Rêgo

Page 25: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 20

Considere os seguintes axiomas.Axioma 1. ≻ em F é uma relação de preferência, ou seja, assimétrica e transitiva

negativa.Sobre o Axioma 1, vimos na Seção 2.1.2, que a hipótese de transitividade negativa pode

causar algumas dificuldades com respeito a nossa intuição sobre a noção de preferência.Axioma 2. f ≻ g e a ∈ (0, 1] implica que af + (1 − a)h ≻ ag + (1 − a)h, para todo

h ∈ F .O Axioma 2 é frequentemente conhecido como axioma da substituição ou da indepen-

dência. Usualmente, utiliza-se um argumento enganoso para motivar este axioma em termosde ações compostas. Ou seja, pensasse af + (1 − a)h como sendo uma ação que é igual af quando um evento A de probabilidade a > 0 ocorre e igual a h no caso contrário. Destemodo, única diferença entre af + (1− a)h e ag+ (1− a)h é o que acontece quando o eventoA ocorre. Logo, seria intuitivo requerer que se f ≻ g, então af +(1−a)h ≻ ag+(1−a)h. Oproblema com este tipo de argumento é que af +(1−a)h não é uma ação composta, quandose expressa a preferência é por toda a ação af + (1 − a)h sobre a ação ag + (1 − a)h nãosomente pela parte que ocorreria se o evento A ocorresse. Veremos mais adiante que esteaxioma é frequentemente violado quando analisa-se o comportamento de agentes na prática.

Axioma 3. f ≻ f ′ ≻ f ′′ implica que existem a, b ∈ (0, 1) tal que af + (1− a)f ′′ ≻ f ′ ≻bf +(1− b)f ′′. Este axioma é chamado de axioma arquimediano ou axioma da continuidade.Ele implica que não existe nenhuma ação f tão boa tal que para f ′ ≻ f ′′, não importa quãopequena seja a probabilidade b, uma probabilidade b de f e uma probabilidade 1− b de f ′′

é sempre melhor que f ′. Similarmente, não existe nenhuma ação f ′′ tão ruim tal que paraf ≻ f ′, não importa quão grande seja a probabilidade a, uma probabilidade a de f e 1−a def ′′ é sempre pior que f ′. Poderíamos tentar argumentar que este axioma não é válido, pois porexemplo a ação que nos dá como consequência a morte em todos os estados da natureza seriainfinitamente ruim e qualquer ação que dê ao agente uma probabilidade de morte positivanão importa quão pequena deve ser realmente pior para o agente. Este argumento, contudonão é válido pois frequentemente agentes tomam ações que tem probabilidades positivas deacabar em morte. Por exemplo, atravessar uma avenida movimentada, andar de moto, eviajar de avião! Deste modo comprova-se que agentes não avaliam a consequência mortecomo sendo infinitamente ruim.

Axioma 4. Existem f, g ∈ F tais que f ≻ g.Este axioma apenas implica que o agente prefere alguma coisa entre as opções disponíveis.

Caso contrário todas as consequências tem a mesma utilidade para o agente e estamos emum caso trivial e pouco interessante.

Axioma 5. Se f ∈ F , p, q ∈ ∆(Z), e f−sp ≻ f−sq, então para todo estado não-nulo s′

temos f−s′p ≻ f−s′q.Este axioma assegura que as preferências são independentes do verdadeiro estado da

natureza. Esta suposição é inadequada para muitas aplicações. Por exemplo, suponha queS = sol, chuva. Seja p uma distribuição de probabilidade que dá probabilidade 1 aoprêmio que consiste de um pacote de equipamentos que contém um guarda-chuva, seja quma distribuição de probabilidade que dá probabilidade 1 ao um prêmio que consiste domesmo pacote de equipamentos anterior mas não contém o guarda-chuva. No estado chuva,o agente provavelmente preferirá p a q, mas no estado sol pode ser indiferente entre essas

Autor: Leandro Chaves Rêgo

Page 26: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 21

duas distribuições. Este exemplo, não pode ser modelado por uma representação onde autilidade é independente dos estados da natureza.

O próximo teorema prova que estes axiomas são necessários e suficientes para a repre-sentação que desejamos.

Teorema 2.2.13: Axiomas 1–5 são necessários e suficientes para que existam uma funçãonão constante u : Z → IR e uma distribuição de probabilidade π em S tal que

f ≻ g se, e somente se,∑s∈S

π(s)[∑z∈Z

u(z)f(s)(z)] >∑s∈S

π(s)[∑z∈Z

u(z)g(s)(z)].

Além disso, a distribuição de probabilidade π é única, e u é única exceto por uma transfor-mação positiva afim nesta representação.

Prova: Omitida. Maiores detalhes podem ser vistos em Kreps (1988).

Nos jogos que se seguem definiremos jogadores como racionais se eles escolhem ações(estratégias) que maximizam suas utilidades esperadas. Deste modo estamos implicitamenteadmitindo que os Axiomas 1-5 definem o que são preferências racionais. Contudo, é impor-tante ter em mente que conforme discutimos acima existem situações em que esses axiomasnão são razoáveis, e portanto, não deve-se esperar que jogadores escolham suas ações basea-dos no critério de maximização da utilidade esperada. Na próxima seção discutiremos algunsParadoxos famosos da Teoria da Utilidade Esperada.

2.2.4 Paradoxos

Paradoxo de Newcomb

Suponha que um “ser superior” lhe apresenta duas caixas, uma aberta e uma fechada. A caixaaberta contém R$1.000. Na caixa fechada ou acabou de ser colocado R$0 ou R$1.000.000pelo ser superior. Você pode escolher a caixa fechada ou ambas caixas. Você recebe o queestiver nas caixas. Porém, existe um problema o ser superior pode predizer o que humanosfarão. Se o ser predizer que você escolherá ambas as caixas, ele coloca R$0 na caixa fechada.Se ele predizer que você, escolherá apenas a caixa fechada, ele colocará R$1.000.000 na caixafechada. O ser superior acertou 999 das últimas 1000 vezes em que este experimento foirealizado. O que você deve fazer?

Os estados da natureza e as ações disponíveis neste problema são:

• s1: O “ser superior” colocou 0 na caixa fechada

• s2: O “ser superior” colocou 1.000.000 na caixa fechada

• a1: escolha ambas as caixas

• a2: escolha apenas a caixa fechada

s1 s2a1 $1.000 $1.001.000a2 $0 $1.000.000

Autor: Leandro Chaves Rêgo

Page 27: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 22

Raciocínio por dominância sugere que devemos escolher a1. Mas dominância não é apro-priado se estados e ações não são independentes. A regra da maximização da utilidadeesperada estabelece que se ações e estados não são independentes nós precisamos calcularPr(si | aj). Portanto, neste exemplo Pr(s1 | a1) = .999 e Pr(s2 | a2) = .999. Então, deve-seescolher a ação a que maximize Pr(s1 | a)u(s1, a) + Pr(s2 | a)u(s2, a). Neste caso, entãodeve-se escolher a2. Isto está realmente correto? O dinheiro ou está na caixa ou não está. . . . Considere a seguinte aplicação que é um exemplo mais concreto deste paradoxo:

Exemplo 2.2.14: Os fatos

• Fumar é altamente correlacionado com doenças coronarianas.

• Doenças coronarianas têm fundo genético.

• Doenças coronarianas são mais comuns em pessoas com personalidade do tipo A.

Suponha que ter personalidade do tipo A é hereditário e que pessoas com este tipo depersonalidade têm uma maior tendência a fumar. Esta é a razão por que fumar é correlacio-nado com doenças coronarianas. Suponha que você tem personalidade do tipo A. Você devefumar? Você tem um problema de decisão similar ao paradoxo de Newcomb. Porém, o fatoque Pr(doença coronariana | fumar) é alta não deveria lhe impedir de fumar. Pois fumar éapenas correlacionado doença coronariana e não causa doença coronariana, então você nãotem nada a perder por fumar!

Então, antes de aplicar a regra de MUE no caso de estados e ações dependentes, devemosconsiderar se nossas ações causam uma mudança de estado ou se nossas ações apenas estãocorrelacionadas com os estados. Portanto, no paradoxo de Newcomb, você deve escolherambas as caixas a não ser que você acredite que escolher ambas as caixas causa a segundacaixa estar vazia!

Paradoxo de Ellsbergue

Suponha que existam duas urnas cada uma com 60 bolas. A urna 1 contém 30 bolas azuise 30 bolas verdes. Tudo que se sabe sobre a urna 2 é que ela contém bolas azuis e verdes,mas não sabe-se a distribuição das bolas. Considere que existem duas loteria com prêmiosbaseados no sorteio de bolas dessas urnas. Loteria L1 paga R$1.000,00 se uma bola azul forsorteada na urna 1, e R$0,00 caso contrário. Loteria L2 paga R$1.000,00 se uma bola azul forsorteada na urna 2, e R$0,00 caso contrário. A maioria das pessoas quando questionada seprefere um bilhete da Loteria L1 ou L2 prefere um bilhete da loteria L1. Suponha agora quetemos duas outras loterias L3 e L4, onde a primeira paga R$1.000,00 somente se uma bolaverde for sorteada da urna 1, e a segunda para R$1.000,00 somente se uma bola verde forsorteada da urna 2. Também, é verificado que a maioria das pessoas que preferiram a loteriaL1 a loteria L2 preferem a loteria L3 a loteria L4. Com estas preferências, não é possívelque o decisor possua uma única distribuição de probabilidade subjetiva sobre as cores dasbolas na urna 2, pois a primeira preferência (L1 sobre L2) indica que o decisor considera queexistam mais bolas verdes que azuis na urna 2, e a segunda (L3 sobre L4) indica que o decisor

Autor: Leandro Chaves Rêgo

Page 28: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

2.2. ESCOLHA SOB INCERTEZA. 23

considera que existam mais bolas azuis que verdes na urna 2. Esse fenômeno é conhecidona literatura como aversão a ambiguidade, e pode-se modelar a incerteza do decisor por umconjunto de medidas de probabilidade ao invés de uma única medida de probabilidade e queo decisor utiliza a regra 1 discutida na Seção 2.2.1.

Paradoxo de Allais

Suponha que existam 4 loterias A, B, C, e D. Você é chamado a escolher entre a loteriaA que lhe paga R$2.500, 00 com probabilidade 0,33, R$2.400, 00 com probabilidade 0,66,e R$0, caso contrário; e a loteria B que lhe paga R$2.400, 00 com probabilidade 1. Vocêtambém é chamado a escolher entre a loteria C que lhe paga R$2.500, 00 com probabilidade0,33, R$0 com probabilidade 0,67; e a loteria D que lhe paga R$2.400, 00 com probabilidade0,34, R$0 com probabilidade 0,66. A maioria das pessoas preferem B na primeira situaçãoe C na segunda situação. Estas escolhas sugerem que pessoas não utilizam a regra dautilidade esperada para escolher entre as alternativas, pois B ≻ A implica que u(2400) >0,33u(2500) + 0,66u(2400) + 0,01u(0), o que é equivalente a 0,34u(2400) > 0,33u(2500) +0,01u(0). Similarmente, C ≻ D implica que 0,33u(2500)+0,67u(0) > 0,34u(2400)+0,66u(0),o que é equivalente a 0,33u(2500) + 0,01u(0) > 0,34u(2400). Uma inconsistência. Portanto,as preferências expressas pela maioria das pessoas indica que elas são inconsistentes com oprincípio da maximização da utilidade esperada. Portanto, essas preferências devem violaralgum entre os Axiomas 1 a 5. Você consegue determinar que axioma é esse? (Exercício)

A explicação mais comum para a falha da MUE neste exemplo é a falta de habilidade daspessoas para diferenciar pequenas diferenças de probabilidade; 0,33 e 0,34 parecem iguaise as pessoas tendem a focar na diferença de valores. Porém 0,01 e 0 parecem diferentes (asegunda lhe dá certeza plena que o evento não ocorre) e as pessoas tendem focar na diferençade probabilidade. A Teoria dos Prospectos de (Kahnemann and Tversky) resolve o Paradoxode Allais colocando um peso diferente nas probabilidades de acordo com a importância queagentes tendem a dar a estas.

Autor: Leandro Chaves Rêgo

Page 29: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 3

Jogos em Forma Normal

3.1 DefiniçãoTeoria dos jogos pode ser pensada como um problema de decisão que envolve mais de umagente. Neste capítulo, estaremos interessados em estudar jogos estáticos, ou seja, jogos emque os agentes se movem simultaneamente e uma única vez. Estes jogos são conhecidos naliteratura como jogos em formal normal ou estratégica. Todo jogo em forma normal tem asseguintes componentes

1. Existe um conjunto de agentes ou jogadores N .

2. Cada jogador i pode escolher ações de um conjunto de estratégias (puras) ou ações Ci.

• O resultado do jogo é definido pelo perfil de estratégias que consiste de todas asestratégias escolhidas pelos jogadores individuais. Matematicamente, o conjuntode perfis de estratégias é dado por C = ×i∈NCi.

3. Jogadores têm preferência sobre os possíveis resultados do jogo. Em geral, o perfilde estratégias escolhido pelos jogadores determina uma distribuição de probabilidadesobre possíveis consequências, assumiremos que os jogadores agem como se possuíssemuma função utilidade no conjunto de possíveis consequências e avaliam uma distribui-ção de probabilidade sobre as possíveis consequências pelo valor esperado da utilidadesegunda esta dada distribuição. Dessa forma, para cada possível perfil de estratégiaso jogador avaliará este perfil pelo valor da utilidade esperada das consequências, ondeo valor esperado é calculado utilizando a distribuição de probabilidades induzida peloconjunto de ações. Quando estuda-se jogos, o que se chama resultado, pagamento ouutilidade de um perfil de estratégia é o valor da utilidade esperada das consequênciasinduzidas pelo perfil. Portanto, de agora em diante assumiremos que os jogadores re-cebem um certo pagamento ou tem uma certa utilidade para cada possível perfil deestratégias, mas é importante ter em mente que na verdade jogadores não possuem pre-ferências (ou utilidades) sobre perfis de estratégias mas, sim, uma utilidade esperadasobre as consequências induzidas pelo perfil de estratégia. Note que um jogador precisasaber não somente de sua própria estratégia mas também das estratégias dos demais

24

Page 30: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.2. ALGUNS EXEMPLOS IMPORTANTES 25

jogadores para determinar o resultado do jogo, pois em geral, o resultado do jogo de-pende das estratégias de todos os jogadores envolvidos. Portanto, o que importa paraos jogadores são os resultados do jogo, ou os perfis de estratégias, não suas própriasestratégias. Claro que suas ações fazem parte do perfil de estratégia e portanto influ-enciam no resultado do jogo, mas para cada ação de um dado jogador podem existirvários resultados possíveis. Portanto, temos que para cada possível perfil de estratégiac ∈ C, cada jogador i ∈ N avalia c de acordo com um número ui(c). Esta funçãoui será denominada de função utilidade ou pagamento do jogador i. Formalmente,ui : C → IR, i ∈ N .

Quando temos dois jogadores, toda esta informação pode ser expressa convenientementeem uma matriz como a mostrada a seguir:

E CE 1,1 0,0C 0,0 1,1

Nesta matriz o jogador 1 escolhe uma das linha E ou C, e jogador 2 escolhe uma dascolunas E ou C. Cada célula da matriz tem um par de números onde a primeira componenterepresenta a utilidade do jogador 1 e a segunda componente representa a utilidade do jogador2.

Note que o fator tempo não está presente em um jogo em forma normal. A idéia é quecada jogador escolhe sua estratégia uma vez por todas e que os jogadores escolhem suasestratégias simultaneamente, no sentido de que eles não possuem informação a respeito dasescolhas dos outros jogadores antes das suas escolhas. Apesar disto, uma estratégia podeenvolver escolhas que acontecem ao passar do tempo. Por exemplo, uma estratégia podedepender de resultados de acontecimentos do futuro, por exemplo, se a cotação do dólarbaixar de R$1,50, passarei férias no exterior, caso contrário, passarei férias no Brasil. O fatoque o tempo não está no modelo significa que quando analisamos a situação como um jogoem forma normal, desconsideramos as complicações que podem surgir quando permitimosque um jogador mude de estratégia quando os eventos ocorrem. Também assumimos que osjogadores fazem sua escolha de modo independente, ou seja, os jogadores não podem escolherestratégias que dependem das escolhas dos outros jogadores.

3.2 Alguns Exemplos Importantes

3.2.1 Batalha dos Sexos

Suponha que um casal está decidindo em que local a família vai passear no próximo domingo.Existem duas opções: passar o dia no shopping center, ou passar o dia na praia. Suponhaque o marido (jogador 1) prefere ir a praia e a esposa (jogador 2) prefere ir ao shopping. Masambos ganham alguma utilidade em ir juntos ao mesmo local. Irem para locais diferentestem utilidade zero para ambos. A matriz de pagamentos desse jogo é a seguinte:

Autor: Leandro Chaves Rêgo

Page 31: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.2. ALGUNS EXEMPLOS IMPORTANTES 26

S PS 1,2 0,0P 0,0 2,1

O interessante neste jogo é que jogadores têm um incentivo a escolherem juntos ao invésde um contra o outro, pois ambos se dão melhor se eles escolhem a mesma ação. O próximoexemplo ocorre exatamente o oposto, a soma das utilidades de cada resultado do jogo paraos jogadores é igual a zero (ou a uma constante).

3.2.2 Jogos de Soma-Zero

Em jogos de soma-zero qualquer ganho de uma das partes provoca uma perda de igualutilidade para os outros jogadores. Pense, por exemplo, em como dividir uma pizza. Otamanho da pizza não se altera, precisamos apenas saber como distribuir a pizza entreos jogadores. O jogo de soma-zero mais simples é conhecido como combinando centavos(matching pennies). Este jogo contém dois agentes, onde o agente 1 ganha um real doagente 2 se ambos escolherem a mesma ação, e perde um real em caso contrário:

H TH 1,-1 -1,1T -1,1 1,-1

3.2.3 Medindo Forças

Neste jogo suponha que temos dois jovens dirigindo para casa em uma rua estreita com seuscarros, e em direções opostas. Nenhum deles quer sair do caminho, quem sair do caminho éconsiderado como fraco e perde seu orgulho, enquanto o outro ganha fama de forte. Porém,se ambos não saem do caminho, eles se acidentam gravemente. Se ambos saem do caminho,nenhum deles fica feliz ou infeliz.

F SF -20,-20 10,-5S -5,10 0,0

3.2.4 Dilema do Prisioneiro

Este jogo provavelmente é o mais famoso de todos. A estória é que dois prisioneiros sãointerrogados. Se ambos cooperarem no julgamento, eles saem cada um com um ano deprisão. Se ambos delatarem um ao outro, eles pegam cada um 3 anos de cadeia. Se umcooperar e o outro delatar, então aquele que cooperar vai a prisão por 5 anos, e o delator sailivre.

D CD -3,-3 0,-5C -5,0 -1,-1

Autor: Leandro Chaves Rêgo

Page 32: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.2. ALGUNS EXEMPLOS IMPORTANTES 27

Note que o melhor resultado se os jogadores decidirem juntos é (C,C), é o que têm amaior soma de utilidades. O resultado (D,D) é o pior possível se considerarmos a soma dasutilidades de ambos jogadores, e é pior do que o resultado (C,C) para ambos os jogadores.Então claramente, (D,D) parece ser um péssimo resultado.

Alguns exemplos práticos onde o Dilema do Prisioneiro pode surgir são os seguintes:

• Corrida Armamentista. Dois países entram em uma corrida armamentista. Ambosgostariam de gastar seu dinheiro com o sistema de saúde (C), por exemplo, mas se umdeles gasta dinheiro com o sistema de saúde (C), e o outro gasta dinheiro em armas(D), o primeiro país será invadido.

• Escudo Anti-Míssil. Os EUA (País 1) podem tanto construir um sistema de defesa anti-míssil (D) como não construir tal sistema (C). Rússia (País 2) pode tanto construirmais mísseis (D) como não construir mais mísseis (C). Se os EUA não construirem osistema anti-míssil, e a Russia não construir mais mísseis, então ambos países estãorazoavelmente bem. Se a Rússia construir mais mísseis e os EUA não tiverem o sistemaanti-míssil, então os EUA se sentirão muito inseguros. Se os EUA construírem umescudo anti-míssil, e a Rússia não construir mísseis, então os EUA estão felizes, masa Rússia se sente insegura. Se os EUA construírem o sistema anti-míssil e a Rússiaconstruir mais mísseis, então eles estão com o mesmo grau de insegurança que no caso(C,C), mas eles estão piores pois têm menos recursos para investir em outras áreas.

• Mercado de Aviação. O mercado da aviação é um exemplo do dilema do prisioneiro naárea empresarial. Como todo serviço, o problema com a passagem aérea é que, umavez que o avião levanta vôo, cada assento não vendido é uma perda. Não é possívelestocar a vaga para vendê-la depois. Além de deixar de ganhar com mais uma venda,as empresas aéreas ainda têm de arcar com o prejuízo de colocar o avião no ar, quenão muda muito pela lotação. Portanto, a motivação para uma empresa baixar seuspreços, principalmente em vôos difíceis de vender, é muito alta. Como a maioria daspessoas não faz distinção de companhias aéreas, desde que chegue a seu destino, aempresa com preços mais baixos tende a voar com a maior lotação possível, enquantoas concorrentes agonizam com os prejuízos. Essa dinâmica pode chegar ao extremo deempresas competindo por clientes enquanto sabidamente têm prejuízo em alguns vôos,simplesmente por ser pior para elas voarem vazias do que com um prejuízo diminuído.

3.2.5 Duopólio de Cournot

Este jogo tem um conjunto de estratégia infinito. Duas firmas escolhem o nível de produçãoqi e têm custos de produção ci(qi). Os produtos não são diferenciáveis e a demanda demercado determina um preço unitário de p(q1 + q2). Note que esta especificação assumeque os produtos são substitutos perfeitos. Neste caso, temos N = 1, 2, C1 = C2 = IR+,u1(q1, q2) = q1p(q1 + q2)− c1(q1), e u2(q1, q2) = q2p(q1 + q2)− c2(q2).

Autor: Leandro Chaves Rêgo

Page 33: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.3. RACIONALIZABILIDADE E DOMINÂNCIA 28

3.2.6 Duopólio de Bertrand

Este duopólio pode ser visto como em oposição ao duopólio de Cournot. Firmas continuamproduzindo produtos que são substitutos perfeitos, mas agora elas determinam o preço.Consumidores compram da firma com menor preço, e se ambas cobrarem o mesmo preçoelas dividem a demanda igualmente. Ambas firmas têm o mesmo custo unitário c > 0, sãocapazes de atender toda a demanda solicitada, e só produzem produtos que têm demanda.A demanda varia linearmente com o preço, ou seja, D = a − b(min(p1, p2)), onde b > 0, ea− bc > 0. Neste caso, temos N = 1, 2, C1 = C2 = IR+,

u1(p1, p2) =

(p1 − c)(a− bp1) se p1 < p2,(p1 − c) (a−bp1)

2se p1 = p2,

0 se p1 > p2,

e

u2(p1, p2) =

0 se p1 < p2,(p2 − c) (a−bp2)

2se p1 = p2,

(p2 − c)(a− bp2) se p1 > p2.

3.3 Racionalizabilidade e DominânciaExperimento 7: Suponha que você é o jogador 1, ou seja tem que escolher uma das linhasda matriz abaixo. Qual a sua escolha? Justifique sua resposta.

A B C DA 5,2 2,6 1,4 0,4B 0,0 3,2 2,1 1,1C 7,0 2,2 1,5 5,1D 9,5 1,3 0,2 4,8

Como agentes jogam um jogo? Nesta seção iremos encontrar soluções para alguns jogospartindo da suposição que agentes são racionais, isto é escolhem estratégias que maximizamsuas utilidades esperadas, e que cada agente sabe que os outros agentes também são racionais.

3.3.1 Comportamento Racional

Assuma que o agente i tem crenças descritas por uma distribuição de probabilidade µi sobreas estratégias utilizadas pelos outros agentes do jogo. Se s é um perfil de estratégias de umjogo, denotaremos por s−i todas as estratégias deste perfil exceto a estratégia do agente i.

Definição 3.3.1: Uma estratégia si é uma escolha racional para o agente i com crença µi

sesi ∈ argmaxti∈Ci

∑s−i∈C−i

ui(ti, s−i)µi(s−i).

Autor: Leandro Chaves Rêgo

Page 34: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.3. RACIONALIZABILIDADE E DOMINÂNCIA 29

Note, que dado que o agente i possui crença µi, ele está diante de um problema de decisãosob incerteza. E conforme afirmamos ao fim da seção anterior, para jogos consideraremosque agentes devem utilizar a regra MUE.

Definição 3.3.2: Dado qualquer conjunto enumerável B, seja ∆(B) = µ : (B, 2B, µ) é umespaço de probabilidade, isto é ∆(B) é o conjunto de todas as medidas de probabilidadedefinidas na σ-álgebra 2B. Se Ci é o conjunto de estratégias puras para o agente i, σi ∈ ∆(Ci)é uma estratégia randomizada ou mista para o agente i. Denotaremos por [si] a estratégiarandomizada que escolhe a estratégia pura si com probabilidade 1.

Definição 3.3.3: Estratégia si ∈ Ci é estritamente dominada para o agente i se existealguma estratégia randomizada σi ∈ ∆(Ci) tal que

ui(si, s−i) <∑di∈Ci

σi(di)ui(di, s−i), ∀s−i ∈ C−i.

Similarmente, uma estratégia si ∈ Ci é fracamente dominada se para o agente i se existealguma estratégia randomizada σi ∈ ∆(Ci) tal que

ui(si, s−i) ≤∑di∈Ci

σi(di)ui(di, s−i),∀s−i ∈ C−i, e

existe s−i ∈ C−i tal que a desigualdade é estrita.

Em palavras, uma si estratégia é estritamente dominada se existe uma outra estratégia(randomizada) que é sempre melhor que si; e si é fracamente dominada se existe umaoutra estratégia (randomizada) que nunca é pior que si e em pelo menos uma situação éestritamente melhor que si.

Proposição 3.3.4: Se o agente i é racional ele nunca jogará uma estratégia estritamentedominada.

Prova: Se uma estratégia si ∈ Ci é estritamente dominada por σi ∈ ∆(Ci), então

ui(si, s−i) <∑di∈Ci

σi(di)ui(di, s−i), ∀s−i ∈ C−i.

Logo, para qualquer crença µi, temos∑s−i

µi(s−i)ui(si, s−i) <∑s−i

µi(s−i)∑di∈Ci

σi(di)ui(di, s−i).

Trocando a ordem dos somatórios, temos:∑s−i

µi(s−i)ui(si, s−i) <∑di∈Ci

σi(di)∑s−i

µi(s−i)ui(di, s−i).

Portanto, existe di ∈ Ci tal que∑s−i

µi(s−i)ui(si, s−i) <∑s−i

µi(s−i)ui(di, s−i).

Então, si não é uma escolha racional para o agente i.

Autor: Leandro Chaves Rêgo

Page 35: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.3. RACIONALIZABILIDADE E DOMINÂNCIA 30

3.3.2 Dominância Iterada

Uma das coisas mais difíceis quando analisamos um jogo é determinar as crenças dos agentes.Muitos jogos podem ser simplificados assumindo racionalidade dos agentes e conhecimentossobre racionalidade dos outros agentes. Por exemplo, considere o Dilema do Prisioneiro. Co-operar é uma estratégia dominada. Um agente racional portanto nunca cooperará. Portanto,isto resolve o jogo pois todos os agentes irão delatar. Note que um agente não precisa sabernada sobre o outro agente, a não ser que ele é racional. Este resultado é intrigante, poisele é o pior resultado em termos da soma das utilidades dos jogadores e ambos melhorariamseu resultado se cooperassem. Este resultado mostra que às vezes é benéfico restringir asopções dos agentes. Por exemplo, no caso do sistema de defesa anti-mísseis ambos os paísessairiam ganhando se assinassem acordos que proibissem a construção de escudo anti-mísseise a construção de novos mísseis. Então ambos países só teriam uma opção de cooperar eambos sairiam ganhando.

Exemplo 3.3.5: Considere novamente o jogo do Experimento 7 abaixo.

A B C DA 5,2 2,6 1,4 0,4B 0,0 3,2 2,1 1,1C 7,0 2,2 1,5 5,1D 9,5 1,3 0,2 4,8

Neste jogo, para o jogador 2, a estratégia A é estritamente dominada pela estratégia D,assim, a primeira coluna da matriz pode ser eliminada.

B C DA 2,6 1,4 0,4B 3,2 2,1 1,1C 2,2 1,5 5,1D 1,3 0,2 4,8

Agora, nesta matriz reduzida, para o jogador 1, as estratégias A e D são estritamentedominadas pelas estratégias B e C, respectivamente. Portanto, as linhas 1 e 4 podem sereliminadas.

B C DB 3,2 2,1 1,1C 2,2 1,5 5,1

Além disso, a estratégia D do jogador 2 é estritamente dominada pelas estratégia B.Assim, a coluna 3 também pode ser eliminada. Obtemos então uma matriz reduzida 2× 2.

B CB 3,2 2,1C 2,2 1,5

Autor: Leandro Chaves Rêgo

Page 36: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.3. RACIONALIZABILIDADE E DOMINÂNCIA 31

Finalmente, a estratégia C do jogador 1 é estritamente dominada pela estratégia B e, namatriz 1× 2 resultante, a estratégia C do jogador 2 é estritamente dominada pela estratégiaB. Vemos então que o resultado do jogo é (3, 2), isto é, o jogador 1 escolhe a estratégiaB e o jogador 2 escolhe a estratégia B. Neste caso, temos que a técnica de eliminaçãode dominância estrita iterada fornece um único perfil de estratégia como solução do jogo.Contudo, na grande maioria dos jogos esta técnica não determina uma solução única.

Vale a pena discutir o nível de conhecimento que requeremos dos jogadores quando apli-camos esta técnica de eliminação de estratégias estritamente dominadas. Agente 1 tem quesaber que o agente 2 é racional. Agente 2 tem que saber que o agente 1 sabe que o agente 2 éracional. Não é suficiente saber que o outro agente é racional, também é necessário saber queo outro agente sabe que o primeiro é racional. É necessário conhecimento de ordens aindamaiores. Eu posso saber que meu adversário é racional e que ele sabe que eu sou racional.Mas pode ser que ele não saiba que eu sei que ele sabe. Quanto maior for a ordem do co-nhecimento, mais o processo de eliminação de estratégias estritamente dominadas pode serrepetido. Se racionalidade for conhecimento comum podemos repetir este processo de elimi-nação de estratégias estritamente dominadas infinitamente. Assumiremos que racionalidadeé conhecimento comum na maior parte deste curso.

Seja Ci o conjunto de estratégias puras do jogador i e Di um subconjunto não-vazio deCi. Defina D = ×i∈NDi, um subconjunto do conjunto de perfis de estratégias do jogo eD−i = ×j∈N−iDj, ou seja, um subconjunto do conjunto dos perfis de estratégias puras dosadversários de i. Vamos definir por Ui(D) o subconjunto de Di de estratégias que não sãoestritamente dominadas considerando que os demais jogadores escolhem estratégias em D−i,ou seja, para todo i ∈ N

Ui(D) = si ∈ Di : @σi ∈ ∆(Di) tal que∑di∈Di

σi(di)ui(di, s−i) > ui(si, s−i), ∀s−i ∈ D−i.

Definição 3.3.6: A definição formal do algoritmo de eliminação das estratégias estritamentedominadas é a seguinte:

• Passo 1: Defina S0i = Ci, ∀i ∈ N .

• Passo k+1: Para k ≥ 1, defina Ski = Ui(S

k−1),∀i ∈ N . Ski é o conjunto de estratégias

que não são estritamente dominadas quando você sabe que os outros agentes utilizamestratégias em Sk−1

−i .

• Passo ∞: Defina S∞i = ∩∞

k=0Ski . Note que se o conjunto de estratégias Si for finito

para todo i, então o algoritmo deve parar após um número finito de iterações pois osconjuntos se tornam menores a cada iteração. No caso particular, de um jogo comdois jogadores que têm n e m ações disponíveis o processo iterativo deve parar apósno máximo n+m− 2 passos.

Definição 3.3.7: Um jogo tem solução determinada por eliminação de estratégias estrita-mente dominadas se S∞ contém um único perfil de estratégias.

Autor: Leandro Chaves Rêgo

Page 37: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.4. RACIONALIZABILIDADE 32

Observação 3.3.8:

1. Apesar da maioria dos jogos não ter solução determinada por eliminação de estraté-gias estritamente dominadas, este processo nos leva a determinar que estratégias nãodeverão ser utilizadas caso a hipótese de conhecimento comum sobre racionalidade dosjogadores seja satisfeita.

2. Não especificamos a ordem na qual as estratégias devem ser eliminadas. Pode-se mos-trar que a ordem de eliminação não importa. (Exercício) Intuição: Assuma que vocênão eliminou todas as estratégias dominadas em algum passo da iteração. Você a elimi-nará depois? Claro que sim, uma estratégia dominada permanecerá sendo dominada,o máximo que pode ter acontecido é que algumas outras estratégias dos outros agentesforam eliminadas, o que diminui as restrições na definição de estratégia dominada. Omesmo não é verdade para eliminação de estratégias fracamente dominadas.

L RT 1,1 0,0M 1,1 2,1B 0,0 2,1

Poderíamos eliminar primeiro T e depois L. Neste caso, temos que a solução dariautilidades (2,1) com certeza. Contudo, se eliminarmos primeiro B e depois R a soluçãodaria resultado (1,1) com certeza. Portanto, eliminação de estratégias fracamentedominadas nem sempre resulta em resultados consistentes, logo é uma opção de soluçãomenos atraente.

3. Com um conjunto de estratégias finitas o conjunto S∞ é sempre não vazio por queapós cada passo da iteração deve existir alguma estratégia dominante que restou.

4. Para o caso geral de um conjunto infinito de estratégias, não é obvio que o processoiterativo resultará em um conjunto não-vazio. Existem exemplos de sequências mo-notônicas de conjuntos cuja intersecção é vazia: Sn = (0, (1

2)n). A intersecção S∞

de todos estes intervalos abertos é vazia. Uma maneira de garantir que temos umconjunto S∞ não-vazio é assegurar que os conjuntos Sk são fechados e limitados, eportanto compactos, assumindo um espaço de ações de dimensão finita. Geralmente,este é o caso se as funções utilidades forem contínuas nas estratégias dos agentes.

3.4 RacionalizabilidadeNa maioria das situações estratégicas, não é o caso que um jogador pode deduzir as estratégiasque os outros jogadores usam. Como todos os jogadores tentam maximizar sua utilidadeesperada e isto é conhecimento comum, o melhor que um jogador pode esperar fazer édeduzir um conjunto de estratégias plausíveis para os outros jogadores. Aqui, assumimos

Autor: Leandro Chaves Rêgo

Page 38: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.4. RACIONALIZABILIDADE 33

que uma “estratégia plausível” é uma melhor resposta para alguma crença plausível que umjogador pode ter a respeito do perfil de estratégias sendo jogado. Esta é a intuição que oconceito de solução de racionalizabilidade tenta capturar. Podemos pensar em neste conceitocomo sendo o que caracteriza que os jogadores agem otimamente dado suas crenças.

Formalmente, seja Ci o conjunto de estratégias puras para o jogador i; C = ×i∈NCi é,portanto, o conjunto de perfis de estratégias puras. Suponha que C é finito e que cada jogadori é racional e é conhecimento comum que ele escolhe uma estratégia de um subconjunto Di

de Ci. Seja D−i = ×j =iDj e

B(D−i) = argmaxsi∈Ci

∑d−i∈D−i

π(d−i)ui(si, d−i) : para algum π ∈ ∆(D−i);

isto é, B(D−i) consiste das estratégias em Ci que são melhores respostas para alguma crençaque o jogador i pudesse ter sobre as estratégias que os outros jogadores estão usando. Observeque se D−i ⊆ D′

−i ⊆ C−i, então B(D−i) ⊆ B(D′−i) ⊆ B(C−i), pois a medida que o número

de estratégias para os adversários de i aumenta, temos que existem mais crenças plausíveispara i, e portanto, o conjunto de estratégias que são melhores respostas deve aumentar oupermanecer o mesmo.

O conjunto S = ×i∈NSi de estratégias racionalizáveis correlacionadas é caracterizadopelas duas seguintes propriedades: (a) para todo i ∈ N , Si ⊆ B(S−i) e (b) S é o maiorconjunto que satisfaz condição (a), no sentido que, para todo conjunto de perfis de estratégiaD que satisfaz (a), temos que D ⊆ S. Uma estratégia si ∈ Si é chamada de uma estratégiaracionalizável correlacionada para o jogador i. Pode-se construir S através do seguinteprocesso de iteração.

• Passo 1: Defina C0i = Ci,∀i ∈ N .

• Passo k+1: Para k ≥ 1, defina Cki = B(Ck−1

−i ), ∀i ∈ N . Cki é o conjunto de estratégias

que são melhores respostas para alguma crença do jogador i quando i sabe que osoutros agentes utilizam estratégias em Ck−1

−i e podem correlacionar as estratégias.

• Passo ∞: Defina S∗i = ∩∞

k=1Cki .

Como o conjunto de estratégias Ci é finito para todo i, então o algoritmo deve parar após umnúmero finito de iterações pois os conjuntos Ck

i ’s se tornam menores a cada iteração. Sejaj o primeiro passo no qual não há mais nenhuma eliminação de estratégias no algoritmo.Portanto, S∗

i = Cji . Vamos mostrar que o conjunto S∗ = ×i∈NSi é realmente o conjunto

de estratégias racionalizáveis correlacionadas do jogo. Como B(Cki )k≥0 é uma sequência não

crescente de conjuntos, temos que

S∗i = Cj

i = ∩∞k=1Ck

i = ∩∞k=1B(Ck−1

−i ) = B(Cj−i) = B(S∗

−i).

Portanto, a condição (a) da definição é satisfeita. Vamos verificar a condição (b). Suponha,por contradição, que exista outro D ⊆ C tal que Di ⊆ B(D−i) para todo i ∈ N e D * S∗.Como a sequência Ck é não crescente, defina como k∗ o primeiro passo no qual para algumjogador j ∈ N uma estratégia sj ∈ Dj ⊆ B(D−j) não pertença à Ck∗−1

j . Por definição do

Autor: Leandro Chaves Rêgo

Page 39: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.4. RACIONALIZABILIDADE 34

algoritmo, temos que sj /∈ B(Ck∗−2−j ). Como D−j ⊆ Ck∗−2

−j , temos que B(D−j) ⊆ B(Ck∗−2−j ),

uma contradição. Portanto, S∗ é o conjunto de estratégias racionalizáveis correlacionadasdo jogo e S∗

i = B(S∗i ) para todo jogador i.

Frequentemente assume-se que os jogadores escolhem suas estratégias de maneira inde-pendente uns dos outros e que isto é conhecimento comum entre os jogadores. Se nós assu-mimos essa hipótese, nós temos um conceito de solução um pouco mais forte (pelo menos, nocaso em que |N | ≥ 3), que chama-se racionalizabilidade não-correlacionada. Formalmente,suponha que cada jogador é racional e é conhecimento comum que ele escolhe uma estratégiado subconjunto Di de Ci. Seja D−i = ×j =iDj e

O(D−i) = argmaxsi∈Ci

∑d−i

∏j∈N−i

πj(dj)ui(si, d−i) :

para πj ∈ ∆(Dj);

isto é, O(D−i) consiste das estratégias em Ci que são melhores respostas para alguma crençaque o jogador i pudesse ter sobre as estratégias que os outros jogadores estão usando, assu-mindo que é conhecimento comum que jogadores escolhem suas ações independentemente.Observe que se D−i ⊆ D′

−i ⊆ C−i, então O(D−i) ⊆ O(D′−i) ⊆ O(C−i), pois a medida que

o número de estratégias para os adversários de i aumenta, temos que existem mais crençasplausíveis para i, e portanto, o conjunto de estratégias que são melhores respostas deve au-mentar ou permanecer o mesmo. Além disso, note que temos sempre que O(D−i) ⊆ B(D−i),pois todo crença que o jogador i pode ter no caso de independência ele também poderia terno caso em que ele admite a possibilidade dos adversários correlacionarem as estratégias.

O conjunto Su = ×i∈NSui de estratégias racionalizáveis não-correlacionadas é caracte-

rizado pelas duas seguintes propriedades: (a) para todo i ∈ N , Sui ⊆ O(Su

−i) e (b) Su é omaior conjunto que satisfaz condição (a), no sentido que, para qualquer conjunto de perfisde estratégias D que satisfaz (a), temos que D ⊆ Su. Uma estratégia sui ∈ Su

i é chamadade uma estratégia racionalizável não-correlacionada para o jogador i. Pode-se construir Su

através de um processo de iteração similar ao utilizado para construir S, substituindo B(·)por O(·) no algoritmo. Como O(D−i) ⊆ B(D−i), é fácil ver que Su ⊆ S.

O seguinte exemplo ilustra as diferenças entre os três conceitos: eliminação de estratégiasestritamente dominadas, estratégias racionalizáveis correlacionadas e não-correlacionadas.

Exemplo 3.4.1: Considere o seguinte jogo com três jogadores. O jogador a possui trêsestratégias puras a1, a2, a3, enquanto os jogadores b e c possuem duas estratégias puras cadaum b1, b2 e c1, c2, respectivamente. Vamos agora definir quais estratégias pertencem aosconjuntos Ui(C), B(C−i) e O(C−i). Temos que para j ∈ 1, 2, 3, aj ∈ Ua(C) se, e somentese, não existe pa ∈ ∆(Ca) tal que

ua(aj, s−a) <3∑

i=1

pa(ai)ua(ai, s−a), para todo s−a ∈ Cb × Cc,

ou seja, aj ∈ Ua(C) se, e somente se, não existir nenhuma estratégia mista pa que tenha utili-dade esperada estritamente melhor que aj para o jogador a dado qualquer par de estratégiaspuras utilizado pelos jogadores b e c.

Autor: Leandro Chaves Rêgo

Page 40: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.4. RACIONALIZABILIDADE 35

Por outro lado, temos que para j ∈ 1, 2, 3, aj ∈ B(C−a) = B(Cb × Cc) se, e somente se,existir p−a ∈ ∆(C−a) = ∆(Cb × Cc) tal que

2∑i=1

2∑k=1

p−a(bi, ck)ua(aj, bi, ck) ≥2∑

i=1

2∑k=1

p−a(bi, ck)ua(al, bi, ck), para todo l ∈ 1, 2, 3,

ou seja, aj ∈ B(C−a) se, e somente se, aj for uma melhor resposta para alguma crença queo jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo apossibilidade de que b e c correlacionem suas estratégias de acordo com a distribuição p−a.

Finalmente, temos que para j ∈ 1, 2, 3, aj ∈ O(C−a) = O(Cb × Cc) se, e somente se,existirem pb ∈ ∆(Cb) e pc ∈ ∆(Cc) tais que

2∑i=1

2∑k=1

pb(bi)pc(ck)ua(aj, bi, ck) ≥2∑

i=1

2∑k=1

pb(bi)pc(ck)ua(al, bi, ck), para todo l ∈ 1, 2, 3,

ou seja, aj ∈ O(C−a) se, e somente se, aj for uma melhor resposta para alguma crença que ojogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo que osjogadores b e c escolham suas estratégias independentemente de acordo com as distribuiçõespb e pc, respectivamente.

Mostraremos a seguir que o conjunto de estratégias racionalizáveis correlacionadas éexatamente igual ao conjunto de estratégias que sobrevivem ao processo de eliminação iteradade estratégias estritamente dominadas. Considere a seguinte definição:

Definição 3.4.2: Considere um jogo em forma normal com conjunto de perfis de estratégiadado por C = ×i∈NCi. Uma estratégia si do jogador i em um jogo em forma normal nuncaé uma melhor resposta se si /∈ B(C−i).

Lema 3.4.3: Uma estratégia para um jogador em um jogo de forma normal finito (isto é, noqual N e C são finitos) nunca é uma melhor resposta se, e somente se, ela for estritamentedominada, ou seja, B(C−i) = Ui(C) para todo jogador i ∈ N .

Prova: Omitida. Ver Lema 60.1 em Osborne e Rubinstein.

Teorema 3.4.4: Para qualquer jogo em forma normal finito (N, (Ci)i∈N , (ui)i∈N), temos queS∞ = S.

Prova: Consequência imediata do Lema 3.4.3 e dos algoritmos para encontrar S∞ = S.

Exemplo 3.4.5: Considere uma situação onde duas pessoas tem que dividir R$6,00 entresi. Eles usam o seguinte procedimento. Cada pessoa escolhe uma quantidade inteira e não-negativa de reais no máximo igual a R$6,00. Se a soma for no máximo R$6,00, então cadapessoa receberá a quantidade que escolheu. Se a soma exceder R$6,00 e eles tiverem escolhidoo mesmo número então eles dividirão os R$6,00 igualmente. Se a soma exceder R$6,00 e

Autor: Leandro Chaves Rêgo

Page 41: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 36

eles tiverem escolhido valores diferentes, o que escolheu o menor valor recebe a quantidadeque escolheu enquanto o outro recebe o restante. Quais as estratégias racionalizáveis dosjogadores? Responda a mesma pergunta se mudarmos a regra do jogo no último caso etivermos que neste caso o jogador que escolher o maior número (ao invés do menor) recebea quantidade que escolheu enquanto o outro recebe a diferença.

Baseados neste resultado, poderíamos tentar utilizar um outro conceito de solução usandoa noção de dominância fraca. Poderíamos olhar para o maior conjunto D = ×i∈NDi talque para todo jogador i, Di é o conjunto de todas as estratégias que não são fracamentedominadas quando sabe-se que os outros jogadores escolhem estratégias em D−i. Porémexistem jogos onde este conjunto D é vazio conforme o exemplo a seguir.

Exemplo 3.4.6:

x2 y2x1 1,1 1,0y1 1,0 0,1

Se y1 /∈ D1, então segue que y2 /∈ D2. Mas neste caso, temos que y1 não pode ser excluído.Se y1 ∈ D1, então y2 ∈ D2. Mas neste caso, temos que y1 pode ser excluído. Portanto, estenão é um bom conceito de solução.

3.5 Equilíbrio de NashEliminação de estratégias estritamente dominadas é um conceito de solução atrativo por-que somente assume que os jogadores são racionais e que é conhecimento comum que todojogador é racional (mesmo assim isto pode ser uma suposição muito forte já que estamosassumindo que ser racional é utilizar a regra de decisão MUE). É essencialmente um con-ceito construtivo - a idéia é restringir suposições sobre as estratégias escolhidas por outrosjogadores eliminando estratégias uma a uma. Para uma grande classe de jogos, este conceitoreduz significativamente o conjunto de estratégias. Contudo, apenas uma pequena classe deproblemas pode ser resolvida desta maneira.

Vamos introduzir agora o conceito de solução mais famoso em Teoria dos Jogos: equilíbriode Nash. Mostraremos adiante que todo jogo finito tem pelo menos um equilíbrio de Nash eque o conjunto de equilíbrios de Nash é um subconjunto das estratégias racionalizáveis não-correlacionadas, e, portanto, um subconjunto das estratégias que sobrevivem ao processoiterativo de eliminação de estratégias dominadas. Neste sentido, equilíbrio de Nash fazpredições mais fortes que os conceitos anteriores.

Definição 3.5.1: Um perfil de estratégias σ é um equilíbrio de Nash de (N, Cii∈N , uii∈N)se, e somente se, ui(σ) ≥ ui(σ−i, τi) para todo jogador i ∈ N e toda estratégia mistaτi ∈ ∆(Ci).

Definição 3.5.2: Um equilíbrio de Nash σ é dito ser puro se para todo jogador i, σi dáprobabilidade 1 a uma única estratégia em Ci.

Autor: Leandro Chaves Rêgo

Page 42: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 37

Definição 3.5.3: Um perfil de estratégias σ é um equilíbrio de Nash estrito de (N, Cii∈N , uii∈N)se, e somente se, ui(σ) > ui(σ−i, τi) para todo jogador i ∈ N e toda estratégia mistaτi ∈ ∆(Ci).

Em palavras, um perfil de estratégia é um equilíbrio de Nash se mesmo que um jogadorsaiba as estratégias que estão sendo usadas pelos demais, ele não tem incentivo a mudar suaestratégia porque sua estratégia é uma melhor resposta as estratégias dos demais jogadores.O equilíbrio é puro se os jogadores escolhem estratégias determinísticas e é estrito se qualquerdesvio unilateral do equilíbrio causa um prejuízo ao jogador que desviar do equilíbrio.

Em um jogo em forma normal finito ou enumerável, se σi é uma estratégia randomizadapara jogador i, uma estratégia pura si ∈ Ci pertence ao suporte de σi se σi(si) > 0. Opróximo teorema mostra que se σ é um equilíbrio de Nash, então para todo jogador i, todasas estratégias puras no suporte de σi tem a mesma utilidade esperada para o jogador i dadoque os demais jogadores jogam σ−i.

Teorema 3.5.4 : Se σ é um equilíbrio de Nash de um jogo em forma normal finito ouenumerável, então para todo jogador i, para quaisquer pares de estratégias puras si, ti nosuporte de σi, temos ui(si, σ−i) = ui(ti, σ−i). Portanto, ui(σ) = ui(si, σ−i) para qualquerestratégia pura si no suporte de σi.

Prova: Suponha por contradição que exista si, ti no suporte de σi tal que ui(si, σ−i) >ui(ti, σ−i). Considere a seguinte estratégia randomizada τi tal que τi(ci) = σi(ci) paratodo ci ∈ Ci − si, ti, e τ(si) = σi(si) + σi(ti). Então, temos que ui(τi, σ−i) − ui(σ) =σi(ti)(ui(si, σ−i)− ui(ti, σ−i)) > 0, uma contradição pois σ é um equilíbrio de Nash.

3.5.1 Jogos com um Único Equilíbrio de Nash

Exemplo 3.5.5: Dilema do Prisioneiro.

D CD -3,-3 0,-5C -5,0 -1,-1

Este jogo tem apenas um único equilíbrio de Nash onde os jogadores escolhem D comprobabilidade 1. É fácil checar que pelo menos um jogador tem incentivo a mudar de qualqueroutro perfil de estratégias. Por exemplo, ambos os jogadores escolherem C com probabilidade1 não pode ser um equilíbrio de Nash, pois ambos jogadores ganhariam se mudassem paraestratégia que escolhe D com probabilidade 1.

Antes de analisarmos o próximo exemplo consideremos a seguinte Proposição.

Proposição 3.5.6: Se σ é um equilíbrio de Nash de um jogo em forma normal finito ouenumerável, então para todo jogador i, se si pertence ao suporte de σi, si sobrevive ao processoiterativo de eliminação de estratégias estritamente dominadas.

Autor: Leandro Chaves Rêgo

Page 43: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 38

Prova: Suponha, por contradição que existam si pertencentes ao suporte de σ tais que sinão sobrevive ao processo iterativo de eliminação de estratégias estritamente dominadas.Seja k o menor inteiro no qual existe um si no suporte de σ tal que si ∈ Sk

i , mas si /∈ Sk+1i ,

ou seja, existe τi com suporte em Ski tal que ui(si, d−i) < ui(τi, d−i) para todo d−i ∈ Sk

−i.Como todas estratégias no suporte de σ−i estão em Sk

−i, temos que

ui(si, σ−i) =∑

d−i∈Sk−i

σ−i(d−i)ui(si, d−i) <∑

d−i∈Sk−i

σ−i(d−i)ui(τi, d−i) = ui(τi, σ−i).

Então, pelo Teorema 3.5.4, ui(σ) < ui(τi, σ−i), uma contradição pois σ é um equilíbrio deNash.

Exemplo 3.5.7:

L M RU 2,2 1,1 4,0D 1,2 4,1 3,5

Neste jogo o único equilíbrio de Nash é ([U],[L]). É fácil ver que ([U],[L]) é um equilíbriode Nash, pois ambos jogadores perderiam se mudassem de estratégia. Para verificar que esteequilíbrio é único note que este perfil é o único que sobrevive ao processo de eliminação deestratégias estritamente dominadas. Logo, o resultado segue da Proposição 3.5.6.

Exemplo 3.5.8: Combinando Centavos.

H TH 1,-1 -1,1T -1,1 1,-1

Neste jogo o único equilíbrio de Nash tem ambos os jogadores escolhendo cada uma desuas estratégias puras com igual probabilidade. Neste equilíbrio, a utilidade esperada deambos os agentes é igual a zero.

Exemplo 3.5.9: Trabalho em Dupla. Considere uma situação em que duas pessoas temque realizar um trabalho e cada uma delas pode colocar um esforço xi ∈ [0, 1] para o qualela terá um custo de c(xi). O resultado do projeto vale f(x1, x2) e a dupla divide este valorigualmente independente do esforço que cada pessoa teve. Encontre o equilíbrio de Nash nasseguinte situações:

(a) f(x1, x2) = 4x1x2 e c(xi) = x2i , para i = 1, 2.

(b) f(x1, x2) = 3x1x2 e c(xi) = xi, para i = 1, 2.

Em cada um dos casos, existe um outro par de esforços (x1, x2) que dá a ambos jogadoresum melhor resultado do que o resultado obtido no equilíbrio de Nash?

Autor: Leandro Chaves Rêgo

Page 44: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 39

3.5.2 Jogos com Múltiplos Equilíbrios de Nash

Exemplo 3.5.10: Considere o seguinte jogo de coordenação.

E CE 1,1 0,0C 0,0 1,1

Este jogo tem três equilíbrios de Nash - ([E],[E]), ([C],[C]), e (1/2[E]+1/2[C],1/2[E]+1/2[C]).

Exemplo 3.5.11: Medindo Forças.

F SF -20,-20 10,-5S -5,10 0,0

Este jogo tem três equilíbrios de Nash - ([F],[S]), ([S],[F]), e (2/5[F]+3/5[S],2/5[F]+3/5[S]).

Exemplo 3.5.12: Jogo de Votos. Três jogadores escolhem simultaneamente uma de trêsalternativas A, B ou C. Se a maioria escolher uma alternativa, esta será a vencedora. Se osvotos se dividirem em 1-1-1, assumimos que a alternativa A será escolhida. Suponha queas preferências sejam representadas por: u1(A) = 3, u1(B) = 2, u1(C) = 1, u2(A) = 1,u2(B) = 3, u2(C) = 2, u3(A) = 2, u3(B) = 1, e u3(C) = 3.

Este jogo têm vários equilíbrios de Nash, entre os quais podemos citar: ([A],[A],[A]),([B],[B],[B]), ([C],[C],[C]). (Exercício: Encontre todos os equilíbrios de Nash em estratégiapura deste jogo.)

3.5.3 Pontos Focais

O conceito de equilíbrio de Nash não nos permite determinar que equilíbrio será jogado emuma particular realização do jogo se este possui múltiplos equilíbrios. No Exemplo 3.5.10não existe nenhuma maneira de determinar qual dos equilíbrios ([E],[E]) ou ([C],[C]) é me-lhor, pois ambos resultam em utilidade 1 para os jogadores. Por outro lado, o equilíbrio(1/2[E]+1/2[C],1/2[E]+1/2[C]) resultado em uma utilidade esperada de 1/2 para os jogado-res.

Para alguns jogos é possível que exista algum equilíbrio de Nash que se destaque emrelação aos demais, estes equilíbrios são chamados de pontos focais. Por exemplo, o fato quebrasileiros dirigem do lado direito da rua poderia ser utilizado para determinar o ponto focaldo próximo exemplo:

Exemplo 3.5.13: João e José dirigem em dois carros numa pista de duas faixas em direçõesopostas. Eles podem dirigir tanto do lado esquerdo como do direito, mas se eles não coor-denarem suas ações eles podem causar um acidente de trânsito. Este jogo pode ser descritopela seguinte matriz:

Autor: Leandro Chaves Rêgo

Page 45: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 40

D ED 1,1 0,0E 0,0 1,1

Esperamos que ambos escolham ([D],[D]) que é a norma socialmente aceita neste jogo.

Exemplo 3.5.14: Batalha dos Sexos.Considere novamente o jogo da batalha dos sexos.

S PS 1,2 0,0P 0,0 2,1

([S],[S]) e ([P],[P]) são equilíbrios de Nash deste jogo. Este jogo é interessante, pois osjogadores não são indiferentes entre qual equilíbrio implementar. Jogador 1 prefere ([P],[P])e o jogador 2 prefere ([S],[S]).Experimento 8: Suponha que você é o jogador 1 na batalha dos sexos. Qual será a suaescolha?Experimento 9: Suponha novamente que você é o jogador 1 na batalha dos sexos. Jogador2 escolhe uma ação primeiro. Você não pode observar a escolha do jogador 2 antes de escolhersua própria ação. Qual será a sua escolha?Experimento 10: Suponha novamente que você é o jogador 1 na batalha dos sexos. Antesdo jogo começar, o jogador 2 tem uma oportunidade de fazer um anuncio. Seu anuncio é“Jogarei S”. Você não pode fazer um anúncio antes do jogo. Qual será a sua ação?

Este tipo de comunicação é conhecido como conversa fiada (cheap talk) pois este anuncionão muda em nada a análise. Note que, simplesmente expandindo o espaço de estratégiaspara o jogador 2. Ao invés das estratégias S e P, jogador 2 agora tem 4 estratégias: Ss,Sp, Pp, Ps, onde estratégia Sp significa que jogador 2 escolhe S e anuncia que iria jogar p.Claramente, as estratégias Ss e Sp têm a mesma utilidade esperada quando jogada contraqualquer estratégia do jogador 1. Portanto, o jogo continua tendo o “mesmo” conjunto deequilíbrios de Nash que antes. Contudo, o anúncio pode criar um ponto focal no jogo.

3.5.4 Risco Dominante

Considere o seguinte jogo.

A BA 9,9 -15,8B 8,-15 7,7

Este jogo tem dois equilíbrios de Nash em estratégias puras: ([A],[A]) and ([B],[B]).Ao contrário dos jogos anteriores, o equilíbrio ([A],[A]) é melhor para ambos os jogadores.Podemos então ser tentados a pensar que este equilíbrio é mais jogado na prática. Contudo,muitas pessoas tipicamente escolhem estratégia B na maioria dos experimentos. Escolher Aparece ser muito arriscado. Assuma que você não sabe muito sobre o outro jogador e achaque é igualmente provável que ele escolherá uma de sua estratégias puras que fazem partede um equilíbrio de Nash. Então, escolher A lhe dá uma utilidade esperada de -3 enquantoescolher B lhe dá 7,5. Portanto, A é risco dominada por B.

Autor: Leandro Chaves Rêgo

Page 46: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 41

3.5.5 Dominância Conjunta

Um outro critério de seleção de equilíbrios é escolher os equilíbrios nos quais não existe outroequilíbrio onde todos os jogadores recebem um pagamento esperado pelo menos igual a esteequilíbrio e pelo menos um dos jogadores esteja estritamente melhor. Segundo este critérioos jogadores no jogo da seção anterior deveriam escolher o equilíbrio ([A],[A]). Para um outroexemplo considere o seguinte jogo:

A BA 1,3 2,3B 1,1 2,1

Neste jogo, os 4 perfis de estratégias puras são equilíbrios de Nash. Segundo o critériode dominância conjunta, o equilíbrio selecionado seria o par ([A],[B]).

3.5.6 Prova da Existência

Nesta seção veremos que todo jogo em forma normal finito possui um equilíbrio de Nashem estratégias randomizadas. A demonstração que apresentaremos faz uso do Teorema doponto fixo de Brouwer.

Teorema 3.5.15: (Brouwer.) Se M é um subconjunto compacto e convexo de um espaçoeuclidiano de dimensão finita e F : M → M é uma função contínua, então F possui umponto fixo em M , isto é, existe x∗ ∈ M tal que F (x∗) = x∗.

Provaremos a existência do equilíbrio de Nash em jogos finitos através de uma série delemas. Para cada jogador i ∈ N e cada estratégia s ∈ Ci seja zsi : ×i∈N∆(Ci) → IR tal que

zsi (σ) = ui([s], σ−i)− ui(σ),

isto é, zsi mede o ganho ou perda do jogador i quando ele muda de estratégia σi para [s].

Lema 3.5.16: σ∗ é um equilíbrio de Nash se, e somente se, zsi (σ∗) ≤ 0, ∀i ∈ N e s ∈ Ci.

Prova: Assuma que σ∗ é um equilíbrio de Nash, então ui(σ∗) ≥ ui([s], σ

∗−i) para todo i ∈ N

e s ∈ Ci. Consequentemente, zsi (σ∗) ≤ 0.Por outro lado, se zsi (σ

∗) ≤ 0, ∀i ∈ N e s ∈ Ci, então ui([s], σ∗−i) ≤ ui(σ

∗), ∀i ∈ Ne s ∈ Ci. Precisamos mostrar que para todo σi, ui(σi, σ

∗−i) ≤ ui(σ

∗). Pela linearidade daesperança, temos

ui(σi, σ∗−i) =

∑s∈Ci

σi(s)ui([s], σ∗−i)

≤∑s∈Ci

σi(s)ui(σ∗) = ui(σ

∗)∑s∈Ci

σi(s) = ui(σ∗)

Autor: Leandro Chaves Rêgo

Page 47: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 42

Corolário 3.5.17: Seja gsi (σ) = max(0, zsi ), então σ∗ é um equilíbrio de Nash se, e somente,gsi (σ

∗) = 0, ∀i ∈ N e s ∈ Ci.

Considere a seguinte aplicação F : ×i∈N∆(Ci) → ×i∈N∆(Ci) tal que para todo i ∈ N es ∈ Ci:

Fi(σ)(s) =σi(s) + gsi (σ)

1 +∑

t∈Ci gti(σ)

.

Lema 3.5.18: σ∗ é um equilíbrio de Nash se, e somente se, F (σ∗) = σ∗, isto é, se, e somentese, σ∗ é um ponto fixo da aplicação F .

Prova: Observe que, de fato, F (×i∈N∆(Ci)) ⊆ ×i∈N∆(Ci), pois claramente Fi(σ)(s) ≥ 0 e∑s∈Ci

Fi(σ)(s) =∑s∈Ci

σi(s) + gsi (σ)

1 +∑

t∈Ci gti(σ)

1

1 +∑

t∈Ci gti(σ)

∑s∈Ci

(σi(s) + gsi (σ))

1

1 +∑

t∈Ci gti(σ)

(1 +∑s∈Ci

gsi (σ)) = 1,

portanto, para todo i ∈ N e σ temos que Fi(σ) ∈ ∆(Ci).Assuma que σ∗ é um equilíbrio de Nash, então gsi (σ

∗) = 0 para cada i ∈ N e s ∈ Ci.Desta maneira, Fi(σ

∗)(s) = σ∗i (s) para cada i ∈ N e s ∈ Ci, ou seja, F (σ∗) = σ∗.

Assuma agora que σ∗ é um ponto fixo da aplicação F , então temos que para todo i ∈ Ne s ∈ Ci:

σ∗i (s) =

σ∗i (s) + gsi (σ

∗)

1 +∑

t∈Ci gti(σ

∗).

Segue-se então que para todo i ∈ N e s ∈ Ci:

σ∗i (s)

∑t∈Ci

gti(σ∗) = gsi (σ

∗).

Vamos agora provar que∑

t∈Ci gti(σ

∗) = 0, o que por sua vez implica que gti(σ∗) = 0 para

todo i ∈ N e t ∈ Ci. Suponha, por absurdo, que∑

t∈Ci gti(σ

∗) > 0, então temos que

gsi (σ∗) > 0 se, e somente se, σ∗

i (s) > 0.

Intuitivamente, isto significa que o jogador i se beneficia ao trocar da estratégia σ∗i para

[s], quando os demais jogam conforme σ∗−i se, e somente se, a estratégia mista σ∗

i escolhe aestratégia pura s com probabilidade positiva, o que gera um absurdo. Formalmente, observeque para todo i ∈ N e s ∈ Ci, se gsi (σ

∗) > 0 então ui([s], σ∗−i) > ui(σ

∗). Logo,

ui(σ∗) = ui(

∑s∈Ci

σ∗i (s)[s], σ

∗−i)

=∑s∈Ci

σ∗i (s)ui([s], σ

∗−i) =

∑s∈Ci,σ∗

i (s)>0

σ∗i (s)ui([s], σ

∗−i)

>∑

s∈Ci,σ∗i (s)>0

σ∗i (s)ui(σ

∗) = ui(σ∗),

Autor: Leandro Chaves Rêgo

Page 48: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 43

um absurdo. Isto demonstra que gti(σ∗) = 0 para todo i ∈ N e t ∈ Ci e, assim, σ∗ é um

equilíbrio de Nash em estratégias mistas.

Teorema 3.5.19: Todo jogo em forma normal finito possui um equilíbrio de Nash.

Prova: A aplicação F : ×i∈N∆(Ci) → ×i∈N∆(Ci) definida anteriormente é contínua e×i∈N∆(Ci) é um conjunto compacto e convexo de um espaço euclidiano de dimensão finita.Pelo teorema do ponto fixo de Brouwer, F possui um ponto fixo σ∗. Pelo teorema anterior,σ∗ é um equilíbrio de Nash.

O Teorema 3.5.19 sugere uma maneira de se calcular os equilíbrios de Nash de um jogo.Eles são soluções do seguinte problema de otimização não-linear:

minσ∈×i∈N∆(Ci)

∑i∈N

∑s∈Ci

gsi (σ)

Como gsi (σ) ≥ 0 para todo i ∈ N , s ∈ Ci e σ ∈ ×i∈N∆(Ci), temos que o somatório é igualzero se, e somente se, cada parcela for igual a zero, o que como visto, implica que os perfisσ que solucionam o problema de otimização acima são realmente os equilíbrios de Nash dojogo. Na seção a seguir sugerimos um outro algoritmo para encontrar equilíbrios de Nash dejogos em forma normal finitos.

3.5.7 Cálculo de Equilíbrio de Nash

Nesta seção, consideraremos o problema de calcular os equilíbrios de Nash de um jogo emforma normal finito Γ = (N, (Ci)i∈N , (ui)i∈N). Embora existam infinitas estratégias rando-mizadas para este jogo, existe apenas um número finito de subconjuntos de C que podeconstituir o suporte das estratégias de um equilíbrio de Nash. Podemos então encontrartodos os equilíbrios de Nash de Γ considerando sequencialmente todos os possíveis suportes.

Para cada jogador i seja Di ⊆ Ci. Di representa nossa atual tentativa de estratégias quefazem parte do suporte de algum equilíbrio de Nash. Se existe algum equilíbrio de Nash σcom suporte em ×i∈NDi, o Teorema 3.5.4 garante que cada jogador i deve ser indiferenteentre as estratégias em Di. Portanto as quatro condições seguintes devem ser satisfeitas:

∑c−i∈C−i

(∏

j∈N−i

σj(cj))ui(c−i, di) = wi,∀i ∈ N, ∀di ∈ Di, (3.1)

σi(ei) = 0,∀i ∈ N, ∀ei ∈ Ci −Di, (3.2)∑ci∈Di

σi(ci) = 1,∀i ∈ N, (3.3)

σi(di) > 0,∀i ∈ N, ∀di ∈ Di. (3.4)

Condição (3.1) assegura que o jogador i tem a mesma utilidade esperada wi de utilizarqualquer uma das estratégias puras no suporte de σi. Condições (3.2), (3.3), e (3.4) asse-guram que σi tem suporte Di. Note que as três primeiras condições formam um sistema de

Autor: Leandro Chaves Rêgo

Page 49: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 44

∑i∈N(||Ci|| + 1) equações e mesmo número de incógnitas (wi, σi(ci), para todo ci ∈ Ci e

i ∈ N). Portanto, teoricamente pode-se resolver este sistema. No caso de dois jogadores,teremos um sistema linear de equações. No caso de mais de dois jogadores temos um sistemanão linear. Assumindo que existe solução para este sistema e que podemos encontrar todasas soluções deste sistema teremos que verificar que a Condição (3.4) é satisfeita. Além disso,ainda temos que assegurar que nenhuma outra estratégia ei ∈ Ci−Di é melhor para o jogadori que σi, ou seja, temos que garantir que:

wi ≥∑

c−i∈C−i

(∏

j∈N−i

σj(cj))ui(c−i, ei),∀i ∈ N, ∀ei ∈ Ci −Di. (3.5)

Se conseguirmos encontrar uma solução (σ,w) para o sistema (3.1),(3.2) e (3.3) quesatisfaz também (3.4) e (3.5), temos que σ é um equilíbrio de Nash de Γ e que wi é a utilidadeesperada para o jogador i neste equilíbrio. Por outro lado, se não existe nenhuma soluçãoque satisfaz todas as restrições de (3.1) a (3.5) temos que não existe equilíbrio com suporteem ×i∈NDi. Para encontrar um equilíbrio temos que tentar outro suporte. O Teoremada existência do equilíbrio de Nash garante que existe pelo menos um suporte ×i∈NDi quesatisfaz todas as restrições de (3.1) a (3.5).

Exemplo 3.5.20: Considere o seguinte jogo.

x2 y2 z2x1 0,0 5,4 4,5y1 4,5 0,0 5,4z1 5,4 4,5 0,0

Primeiro note que não existe nenhum equilíbrio de Nash em estratégias puras nestejogo. Vamos verificar se existe algum equilíbrio onde a estratégia do jogador 1 tem suporteD1 = x1, y1. Note que neste caso a estratégia y2 do jogador 2 é estritamente dominadapela estratégia z2 e portanto não pode fazer parte do suporte do equilíbrio, se ele existir.Mas se y2 /∈ D2, temos que x1 é estritamente dominada por y1. Logo, x1 não pode estarno suporte do equilíbrio e, portanto não existe equilíbrio com suporte D1 = x1, y1. Oscasos em que D1 = x1, z1 e D1 = y1, z1 também podem ser resolvidos de forma similarpara chegar-se a conclusão que eles não são suporte de nenhum equilíbrio. Pela simetriado jogo, temos que também não existe equilíbrio quando D2 = x2, y2, D2 = x2, z2, ouD2 = y2, z2. Portanto, só nos resta o caso em que D1 = x1, y1, z1 e D2 = x2, y2, z2.Vamos assumir que σ1 = (p1, p2, 1 − p1 − p2) e que σ2 = (q1, q2, 1 − q1 − q2). Calculando, autilidade esperada do jogador 1 para cada uma de suas três estratégias puras temos:

u1(x1, σ2) = 0q1 + 5q2 + 4(1− q1 − q2) = 4− 4q1 + q2

u1(y1, σ2) = 4q1 + 0q2 + 5(1− q1 − q2) = 5− q1 − 5q2

u1(z1, σ2) = 5q1 + 4q2 + 0(1− q1 − q2) = 5q1 + 4q2

Igualando estas três quantidades, temos a solução q1 = q2 = 1/3. Fazendo calculo similarpara o jogador 2, pela simetria do problema obtemos p1 = p2 = 1/3.

Autor: Leandro Chaves Rêgo

Page 50: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.5. EQUILÍBRIO DE NASH 45

3.5.8 Interpretações de Equilíbrio de Nash

O processo de eliminação de estratégias estritamente dominadas é um algoritmo construtivoe não assume que os jogadores sabem das estratégias dos outros jogadores. Em contraste, emum equilíbrio de Nash jogadores têm crenças precisas sobre as estratégias dos outros. Preci-samos saber de onde essas crenças vêm para podermos interpretar esta noção de equilíbrio.Existem várias interpretações:

1. Estratégias são prescritas. Algum árbitro não envolvido no jogo prescreve uma maneirade como o jogo deve ser jogado. Esta prescrição é estável no sentido de que nenhumjogador tem incentivo a desviar dela unilateralmente.

2. Comunicação prévia. Existe uma comunicação prévia na qual jogadores podem secomunicar e concordar em como jogar o jogo. Novamente este acordo é estável.

3. Introspecção Racional. Um equilíbrio de Nash parece ser uma maneira plausível dejogar o jogo, pois minhas crenças sobre os outros jogadores são consistentes com o fatoque eles são racionais. Esta é uma boa explicação para jogos que contém um únicoequilíbrio de Nash. Contudo, é menos convincente para jogos com múltiplos equilíbriosde Nash.

4. Ponto Focal. Normas sociais ou outras características podem induzir jogadores a pre-ferir algumas estratégias.

5. Aprendizado. Agentes aprendem as estratégias dos outros jogando o mesmo jogo mui-tas vezes. Por exemplo, pense na interação entre consumidores e vendedores. Elesinteragem repetidas vezes, em muitos casos um particular consumidor interage so-mente uma vez com um dado vendedor, ou interage repetidamente mas anonimamentecomo no caso em que o vendedor é uma grande loja. Consumidores e vendedores maisexperientes podem formar crenças baseadas em interações passadas com outros clientespara obter um melhor resultado na barganha.

6. Evolução. Agentes são programados para jogar certas estratégias e são pareados ale-atoriamente uns contra os outros. Assuma que agentes não jogam um equilíbrio deNash inicialmente. Ocasionalmente “mutações” ocorrem, isto é, agentes que jogamuma estratégia diferente surgem. Se esta nova estratégia for lucrativa, estes agentes semultiplicarão a uma taxa mais rápida do que outros agentes e eventualmente passama ser maioria. Sob certas circunstâncias, este sistema converge para um estado onde osagentes jogam um equilíbrio de Nash, e futuras mutações não podem mais se beneficiarde estratégias novas.

É importante ressaltar que cada uma dessas interpretações tem uma hipótese diferentecom respeito ao conhecimento dos agentes. Para o caso de estratégias prescritas é sufici-ente que cada jogador seja racional, e simplesmente acredite no árbitro. Para introspecçãoracional, é necessário que seja conhecimento comum que os jogadores são racionais. Paraevolução, jogadores não precisam nem ser racionais.

Autor: Leandro Chaves Rêgo

Page 51: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.6. JOGO SIMÉTRICO EM FORMA NORMAL 46

Algumas interpretações têm menos problemas em lidar com multiplicidade de equilíbrios.Se acreditarmos que o equilíbrio surge por que um árbitro o prescreveu, então não temosque nos preocupar com o problema da multiplicidade de equilíbrios de Nash. Introspecçãoracional é bem mais problemática: cada um dos jogadores podem racionalizar qualquer umdos múltiplos equilíbrios e portanto não têm nenhuma maneira de escolher entre eles.

3.6 Jogo Simétrico em Forma NormalEm muitas situações estratégicas, os jogadores envolvidos possuem o mesmo conjunto deações e avaliam o resultado do jogo de maneira similar, ou seja, possuem a mesma utilidadepara os perfis de estratégias independente de qual seja a sua posição no jogo. Estes jogossão chamados de jogos simétricos. Formalmente, temos:

Definição 3.6.1: Um jogo em forma normal Γ = (N, Ci : i ∈ N, ui : i ∈ N) é simétricose (1) Ci = Cj para todo par de jogadores i, j ∈ N e (2) se para todo par de jogadores i, j ∈ Ne perfil de estratégias c ∈ C, temos ui(c) = uj(c

′), onde c′k = ck para todo k ∈ N − i, j,c′i = cj e c′j = ci, ou seja, se c′ for o perfil de estratégias onde apenas as estratégias dosjogadores i e j são permutadas em relação ao perfil c, e a maneira que j avalia c′ é idênticaa que o jogador i avalia c.

Nessas situações como os jogadores são simétricos faz sentido buscarmos um ponto deequilíbrio onde os jogadores utilizem a mesma estratégia. Para isto define-se a noção deequilíbrio de Nash simétrico:

Definição 3.6.2: Um equilíbrio de Nash σ∗ é simétrico se σ∗i = σ∗

j para todo par de jogadoresi, j ∈ N .

O próximo teorema prova que todo jogo em forma normal simétrico finito tem pelo menosum equilíbrio de Nash simétrico.

Teorema 3.6.3: Um jogo em forma normal simétrico finito tem pelo menos um equilíbriode Nash simétrico.

Prova: A idéia da prova é análoga a prova da existência do equilíbrio de Nash no caso geral.Considere a função Fi : ∆(Ci) → ∆(Ci):

Fi(σi)(s) =σi(s) + gsi (σ)

1 +∑

t∈Ci gti(σ)

,

onde s ∈ Ci e σ é o perfil de estratégias mistas onde todos os jogadores jogam σi. Vamosmostrar que os pontos fixos de Fi constituem as estratégias dos equilíbrios de Nash simétricos.Já provamos que se σ for um equilíbrio de Nash (simétrico), então σi é um ponto fixo de Fi,pois neste caso temos gsi (σ) = 0 para todo s ∈ Ci. Por outro lado, se σi for um ponto fixo deFi, então argumento idêntico a prova da existência do equilíbrio de Nash, nos leva a concluir

Autor: Leandro Chaves Rêgo

Page 52: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.6. JOGO SIMÉTRICO EM FORMA NORMAL 47

que gsi (σ) = 0 para todo s ∈ Ci, o que por sua vez implica que σi é uma melhor respostapara σ−i. Como o jogo é simétrico, isto implica que σ é um equilíbrio de Nash simétrico.

Apesar de todo jogo simétrico possuir um equilíbrio simétrico em estratégias mistas,isto nem sempre é verdade para equilíbrios simétricos em estratégias puras. Por exemplo,considere o seguinte jogo:

A BA 0,0 1,1B 1,1 0,0

Os equilíbrios de Nash em estratégia puras deste jogo são ([B], [A]) e ([A], [B]). Portantonão são simétricos. O único equilíbrio de Nash simétrico é aquele no qual ambos os jogadoresescolhem cada uma de suas estratégias puras com probabilidade 1/2.

Exemplo 3.6.4: Considere o seguinte jogo em forma normal simétrico:

A B CA 1,1 2,1 4,1B 1,2 5,5 3,6C 1,4 6,3 0,0

Encontre todos os equilíbrios de Nash do jogo e determine quais são os equilíbrios simé-tricos.

Solução: Primeiro note que os equilíbrios em estratégias puras são ([A], [A]), ([C], [A]) e([A], [C]). Vamos considerar se existe algum equilíbrio onde o jogador 1 utiliza uma estratégiacom suporte em A,B. Neste caso, a melhor resposta para o jogador 2 seria escolher Ccom probabilidade 1, o que por sua vez levaria o jogador 1 a escolher A com probabilidade1. Logo, não existem equilíbrios onde o jogador 1 (e por simetria o jogador 2) escolhe umaestratégia com suporte em A,B.

Considere agora o caso em que o jogador 1 escolhe uma estratégia com suporte emA,C. Neste caso, a melhor resposta para o jogador 2 seria escolher A com probabilidade1. Neste caso, então o jogador 1 estaria indiferente entre A e C e qualquer distribuiçãode probabilidade com que ele escolhe uma dessas ações leva a um equilíbrio de Nash. Porsimetria, se o jogador 2 também randomizar entre A e C e o jogador 1 escolher A comprobabilidade 1 também constitui um equilíbrio.

Considere agora o caso em que o jogador 1 escolhe uma estratégia com suporte em B,C.Seja p a probabilidade com que o jogador 1 escolhe B. Então, as utilidades esperadas parao jogador 2 das ações A, B e C são respectivamente: 2p + 4(1 − p), 5p + 3(1 − p) e 6p. Sep ≤ 1/4, então A é uma melhor resposta para o jogador 2. Neste caso, o jogador 1 estariaindiferente entre B e C e poderia randomizar entre essas estratégias. Se p = 1/4, entãoo jogador 2 é indiferente entre A e B, mas já provamos que não existe nenhum equilíbrioonde 2 randomiza entre A e B. Se p = 1/2, então o jogador 2 ficará indiferente entre A eC, mas neste caso já vimos que o jogador 1 escolheria A com probabilidade 1, logo não háequilíbrio. Se p = 3/4, então o jogador 2 ficará indiferente entre B e C, e por simetria, se ojogador 2 também escolher B com probabilidade 3/4, o jogador 1 ficará indiferente entre B

Autor: Leandro Chaves Rêgo

Page 53: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 48

e C, então temos um equilíbrio onde ambos jogadores escolhem B com probabilidade 3/4 eC com probabilidade 1/4.

Finalmente, considere o caso em que o jogador 1 escolhe uma estratégia com suporte emA,B,C. Suponha que o jogador 1 escolhe A, B e C com probabilidades p1, p2 e 1−p1−p2,respectivamente. Neste caso, a utilidade esperada para o jogador 2 das ações A, B e C sãorespectivamente: p1+2p2+4(1− p1− p2), p1+5p2+3(1− p1− p2) e p1+6p2. Pela simetriado problema, só poderá existir um equilíbrio neste caso se o jogador 2 também utilizaruma estratégia com suporte em A,B,C, pois os demais casos já foram analisados. Paratanto, as utilidades esperadas dessas 3 ações deve ser a mesma. Igualando as três expressõesobtemos p1 = 1 e p2 = 0, o que não satisfaz a restrição do suporte ser em A,B,C, logonão há equilíbrios neste caso. Resumindo, temos os seguintes equilíbrios:

• ([A], [A]), ([C], [A]) e ([A], [C]).

• (p[A] + (1− p)[C], [A]) e ([A], p[A] + (1− p)[C]), para qualquer p ∈ (0, 1).

• (p[B] + (1− p)[C], [A]) e ([A], p[B] + (1− p)[C]), para qualquer p ∈ (0, 1/4].

• (3/4[B] + 1/4[C], 3/4[B] + 1/4[C]).

Apenas, o primeiro e o último deles são simétricos.

3.7 Jogo de Dois Agentes com Soma ConstanteOs primeiros trabalhos em teoria dos jogos se desenvolveram em jogos de soma constante,em particular em jogos de soma zero. Um jogo com dois agentes com soma constante emforma normal é qualquer jogo Γ = (1, 2, C1, C2, u1, u2) tal que

u1(s1, s2) + u2(s1, s2) = K, ∀s1 ∈ C1, ∀s2 ∈ C2.

Se K = 0, temos um jogo de soma zero. Note que jogos com dois agentes de soma constantedescrevem situações em que os dois jogadores estão em plena oposição um ao outro, ou seja,o ganho de um agente é exatamente igual a perda do outro. Note que em tais jogos, podemosdescrever o objetivo do jogador 2 como sendo minimizar a utilidade esperada do jogador 1,tendo em vista que minimizar a utilidade esperada do jogador 1 é o mesmo que maximizara utilidade esperada do jogador 2. Portanto, no caso de um jogo de soma constante, sóprecisamos saber a função utilidade do jogador 1.

Suponha um jogo de soma constante de dois agentes finito onde o jogador i possui con-junto de estratégias dada por Ci = si,1, si,2, . . . , si,k(i). Seja A uma matriz k(1)×k(2), ondeo elemento aij representa a utilidade para o jogador 1 quando ele escolhe a estratégia s1,i e ojogador 2 escolhe a estratégia s2,j, ou seja, aij = ui(s1,i, s2,j). Define-se um ponto de sela deuma matriz como sendo um elemento da matriz que é menor ou igual a todos na sua linhae é maior ou igual a todos na sua coluna. É fácil ver que aij é um ponto de sela da matrizA se, e somente se, (s1,i, s2,j) for um equilíbrio de Nash em estratégias puras do jogo.

O próximo teorema trata do caso mais geral de equilíbrios de Nash em estratégia mistade um jogo de soma constante.

Autor: Leandro Chaves Rêgo

Page 54: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 49

Teorema 3.7.1 : (σ1, σ2) é um equilíbrio de Nash de um jogo finito de soma constanteΓ = (1, 2, C1, C2, u1, u2), se e somente se,

σ1 ∈ argmaxτ1∈∆(C1) minτ2∈∆(C2)

u1(τ1, τ2)

eσ2 ∈ argminτ2∈∆(C2) max

τ1∈∆(C1)u1(τ1, τ2).

Além disso, se (σ1, σ2) for um equilíbrio de Nash de Γ, então

u1(σ1, σ2) = maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2) = minτ2∈∆(C2)

maxτ1∈∆(C1)

u1(τ1, τ2).

Prova: Suponha primeiro que (σ1, σ2) é um equilíbrio de Nash. Então,

maxτ1∈∆(C1)

u1(τ1, σ2) = u1(σ1, σ2) = minτ2∈∆(C2)

u1(σ1, τ2).

Como u1(τ1, σ2) ≥ minτ2∈∆(C2) u1(τ1, τ2) e u1(σ1, τ2) ≤ maxτ1∈∆(C1) u1(τ1, τ2), temos que

maxτ1∈∆(C1)

u1(τ1, σ2) ≥ maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2)

emin

τ2∈∆(C2)u1(σ1, τ2) ≤ min

τ2∈∆(C2)max

τ1∈∆(C1)u1(τ1, τ2).

Além disso, como σ1 ∈ ∆(C1) e σ2 ∈ ∆(C2), temos que

maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2) ≥ minτ2∈∆(C2)

u1(σ1, τ2)

emin

τ2∈∆(C2)max

τ1∈∆(C1)u1(τ1, τ2) ≤ max

τ1∈∆(C1)u1(τ1, σ2).

Portanto,

u1(σ1, σ2) = maxτ1∈∆(C1)

u1(τ1, σ2)

≥ maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2)

≥ minτ2∈∆(C2)

u1(σ1, τ2) = u1(σ1, σ2)

e

u1(σ1, σ2) = minτ2∈∆(C2)

u1(σ1, τ2)

≤ minτ2∈∆(C2)

maxτ1∈∆(C1)

u1(τ1, τ2)

≤ maxτ1∈∆(C1)

u1(τ1, σ2) = u1(σ1, σ2).

Autor: Leandro Chaves Rêgo

Page 55: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 50

Logo, devemos ter igualdade acima, o que implica que

u1(σ1, σ2) = maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2) = minτ2∈∆(C2)

maxτ1∈∆(C1)

u1(τ1, τ2).

Além disso, comomin

τ2∈∆(C2)u1(σ1, τ2) = max

τ1∈∆(C1)min

τ2∈∆(C2)u1(τ1, τ2)

emax

τ1∈∆(C1)u1(τ1, σ2) = min

τ2∈∆(C2)max

τ1∈∆(C1)u1(τ1, τ2),

temos queσ1 ∈ argmaxτ1∈∆(C1) min

τ2∈∆(C2)u1(τ1, τ2)

eσ2 ∈ argminτ2∈∆(C2) max

τ1∈∆(C1)u1(τ1, τ2).

Para provar a recíproca suponha que

σ1 ∈ argmaxτ1∈∆(C1) minτ2∈∆(C2)

u1(τ1, τ2)

eσ2 ∈ argminτ2∈∆(C2) max

τ1∈∆(C1)u1(τ1, τ2).

Como temos um jogo finito, sabe-se que existe um equilíbrio de Nash do jogo, então segueda primeira parte da prova que

maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2) = minτ2∈∆(C2)

maxτ1∈∆(C1)

u1(τ1, τ2).

Portanto, segue que

u1(σ1, σ2) ≥ minτ2∈∆(C2)

u1(σ1, τ2)

= maxτ1∈∆(C1)

minτ2∈∆(C2)

u1(τ1, τ2)

= minτ2∈∆(C2)

maxτ1∈∆(C1)

u1(τ1, τ2)

= maxτ1∈∆(C1)

u1(τ1, σ2) ≥ u1(σ1, σ2).

Logo, devemos ter igualdade acima, e temos

u1(σ1, σ2) = maxτ1∈∆(C1)

u1(τ1, σ2)

eu1(σ1, σ2) = min

τ2∈∆(C2)u1(σ1, τ2) = K − max

τ2∈∆(C2)u2(σ1, τ2).

Portanto, (σ1, σ2) é equilíbrio de Nash.

Autor: Leandro Chaves Rêgo

Page 56: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 51

Este teorema implica que em todos os equilíbrios de um jogo de soma constante osjogadores têm a mesma utilidade esperada. Vamos ver a seguir que podemos determinara solução de um jogo de soma constante finito através da solução de dois problemas deprogramação lineares. Seja A a matriz de dimensão k(1) × k(2) de utilidades do jogador1. Como preferências são invariantes a transformações afins positivas da função utilidade,podemos assumir sem perda de generalidade que todos os elementos de A são positivos.

Sejam c e b duas matrizes colunas de dimensões k(1) e k(2), respectivamente, onde todosos elementos são iguais a 1. Neste desenvolvimento vamos associar uma estratégia mistapara o jogador i como sendo um vetor coluna de dimensão k(i), onde os elementos são nãonegativos e cuja soma é igual a 1. Considere o seguinte problema de programação linear:

max bTy

sujeito a Ay ≤ c, y ≥ 0.

Como os elementos de A são positivos, é fácil ver que o conjunto viável é não vazio ecompacto. Portanto, existe uma solução. O problema dual pode ser escrito como:

min cTx

sujeito a xTA ≥ bT , x ≥ 0.

O Teorema da Dualidade de programação linear nos garante que se o problema primalpossui uma solução y∗ o problema dual também possui uma solução x∗ de tal forma quebTy∗ = cTx∗. Defina θ = bTy∗. Como os elementos de A são não negativos, temos que θ > 0.Note que x∗TAy∗ = θ (multiplique a restrição do problema primal por x∗T a esquerda paraobter x∗TAy∗ ≤ θ e a restrição do problema dual por y∗ a direita para obter x∗TAy∗ ≥ θ).Vamos provar que σ1 = x∗/θ e σ2 = y∗/θ é um equilíbrio de Nash do jogo. Como x∗TA ≥ bT ,temos que para qualquer τ ∈ ∆(C2), x∗TAτ ≥ bT τ =

∑k(2)i=1 τ(s2,i) = 1. Dividindo tudo por

θ, temos

u1(σ1, τ) = σT1 Aτ = (θ)−1x∗TAτ ≥ (θ)−1 (3.6)

= (θ)−2x∗TAy∗ = σT1 Aσ2 = u1(σ1, σ2).

Portanto, o jogador 2 não tem incentivo a desviar sua estratégia de σ2 para τ . Similarmente,como Ay∗ ≤ c, temos que para qualquer τ ∈ ∆(C1), τTAy∗ ≤ τT c =

∑k(1)i=1 τ(s1,i) = 1.

Dividindo tudo por θ, temos

u1(τ, σ2) = τTAσ2 = τTAy∗(θ)−1 ≤ (θ)−1 (3.7)= (θ)−2x∗TAy∗ = σT

1 Aσ2 = u1(σ1, σ2).

Portanto, o jogador 1 não tem incentivo a desviar sua estratégia de σ1 para τ . Logo, (σ1, σ2)é um equilíbrio de Nash do jogo. O próximo exemplo ilustra esta metodologia para o cálculodo equilíbrio de Nash em jogos de soma constante.

Exemplo 3.7.2: Considere o seguinte jogo de soma constante:

Autor: Leandro Chaves Rêgo

Page 57: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 52

A B C DA 8,2 6,4 1,9 2,8B 5,5 3,7 7,3 5,5C 7,3 10,0 0,10 6,4D 7,3 5,5 5,5 9,1

Neste caso, a matriz A é dada por: 8 6 1 25 3 7 57 10 0 67 5 5 9

Resolvendo o problema de programação linear primal acima, chegamos ao vetor y∗T =[0 1

10110

0]. Já o problema dual possui uma infinidade de soluções da forma x∗T = [0 5p35

2p35

2(1−p)10

],onde p ∈ [0, 1]. Desta forma, temos que θ = 2/10 e que os equilíbrios de Nash do jogo sãoda forma (σ1, σ2), onde σ1 = [0 5p

72p7(1− p)], onde p ∈ [0, 1], e σ2 = [0 1

2120].

Autor: Leandro Chaves Rêgo

Page 58: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 4

Jogos em Forma Extensa

4.1 IntroduçãoAté o momento estudamos apenas casos onde jogadores se movem ao mesmo tempo e umaúnica vez. Contudo em muitas situações estratégicas os jogadores implementam suas estra-tégias ao longo do tempo e podem obter informações sobre as estratégias que estão sendoutilizadas pelos outros jogadores. Para analisar tais situações precisamos de uma outra formade representar jogos, que é conhecida como representação em forma extensa (ou extensiva)de jogos. Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores, quemse move e quando e quais são suas opções, a utilidade dos jogadores para cada possível ma-neira de jogo ser realizado, e finalmente, o que os jogadores sabem quando se movem emcada situação do jogo. Em um jogo em forma extensa admite-se a possibilidade de eventosaleatórios influenciarem na realização do jogo, como por exemplo, o resultado da jogada deum dado. Tais eventos aleatórios são representados no jogo como se fossem feitos por um ou-tro jogador denominado chance ou natureza, sendo que este jogador não possui preferênciassobre os possíveis resultados do jogo.

4.2 Jogos com Informação PerfeitaFormalmente, temos que um jogo em forma extensa com informação perfeita é um vetorΓ = (N,M,H, P, fc, ui : i ∈ N), onde

• N é um conjunto que consiste dos agentes participando do jogo.

• M é um conjunto cujos elementos são os movimentos ou ações disponíveis aos jogadoresou a chance durante o jogo.

• H é um conjunto de sequências de movimentos (elementos de M) que é fechado comrelação a prefixos, isto é, se h ∈ H e h′ for um prefixo de h, então h′ ∈ H.1 Além disso,

1Um prefixo de uma sequência (xn) de comprimento K é qualquer subsequência de (xn) que consiste dosprimeiros l ≤ K termos de (xn). Por exemplo, se h = ⟨m5,m8,m1⟩ os prefixos de h são ⟨⟩,⟨m5⟩,⟨m5,m8⟩, e⟨m5,m8,m1⟩. Se h′ for um prefixo de h mas h′ não for igual a h diz-se que h′ é um prefixo estrito de h.

53

Page 59: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 54

se ⟨a1, . . . aK⟩ ∈ H para todo inteiro finito K, então (an)∞n=1 ∈ H. Denotaremos por

X(h) o conjunto de prefixos de h.

Intuitivamente, cada membro de H é uma possível história do jogo. Podemos identificarnós em uma árvore com histórias em H. Cada nó n é caracterizado por uma sequênciade ações necessárias para atingirmos n. Uma trajetória completa em H é uma históriaterminal, uma que não é prefixo estrito de nenhuma outra história em H. Seja Z oconjunto de trajetórias completas de H. Seja Mh = m ∈ M : h · ⟨m⟩ ∈ H (ondeutilizamos · para denotar concatenação de sequências); Mh é o conjunto de ações quepodem ser tomadas após a história h.

• P : (H − Z) → N ∪ c é uma função que associa cada história não terminal h a umelemento de N ∪ c. (c representa o jogador chance ou natureza.)

Se P (h) = i, então jogador i se move após história h; se P (h) = c, então chance semove após h. Seja Hi = h : P (h) = i o conjunto de todas histórias após as quais ojogador i se move.

• fc é um função que associa a cada história em que P (h) = c uma medida de pro-babilidade fc(· | h) em Mh. Intuitivamente, fc(· | h) descreve uma distribuição deprobabilidade sobre as ações disponíveis para a natureza uma vez que a história h éatingida.

• ui : Z → IR é a função utilidade para o jogador i, que associa um número real (utilidadede i) para cada trajetória completa do jogo.

Um jogo em forma extensa é finito se N,M, e H forem finitos. O próximo exemploilustra a relação entre uma árvore de jogo e a definição formal de jogos em forma extensadada acima.

Exemplo 4.2.1:

Figura 4.1: Um jogo em forma extensa simples.

No jogo da Figura 4.1, temos

Autor: Leandro Chaves Rêgo

Page 60: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 55

• N = A,B, H = ⟨ ⟩, ⟨downA⟩, ⟨acrossA⟩, ⟨acrossA, downB⟩, ⟨acrossA, acrossB⟩,

• P (⟨ ⟩) = A, P (⟨acrossA⟩) = B,

• HA = ⟨ ⟩, HB = ⟨acrossA⟩,

• Z = ⟨downA⟩, ⟨acrossA, downB⟩, ⟨acrossA, acrossB⟩

• uA(⟨downA⟩) = uB(⟨downA⟩) = 1,

• uA(⟨acrossA, downB⟩) = 2,

• uB(⟨acrossA, downB⟩) = 3,

• uA(⟨acrossA, acrossB⟩) = 0, e

• uB(⟨acrossA, acrossB⟩) = 2.

Exemplo 4.2.2: Competição de Stackelberg. Suponha que uma firma 1 desenvolve umanova tecnologia antes que uma firma 2 e como consequência tem a oportunidade de construiruma fábrica e escolher um nível de produção q1 antes que a firma 2 comece sua produção. Afirma 2 então observa a escolha da firma 1 antes de escolher seu nível de produção q2. Porexemplo, assuma que qi ∈ 0, 1, 2, que o preço de mercado é dado por p(q1, q2) = 3−q1−q2,e que o custo de produção é zero. As firmas são obrigadas a vender toda a produção pelopreço de mercado pois não possuem local para armazenagem e a destruição de produtos temum custo muito elevado. Deste modo temos que:

• N = 1, 2, H = ⟨ ⟩, ⟨0⟩, ⟨1⟩, ⟨2⟩, ⟨0, 0⟩, ⟨0, 1⟩, ⟨0, 2⟩, ⟨1, 0⟩, ⟨1, 1⟩, ⟨1, 2⟩, ⟨2, 0⟩, ⟨2, 1⟩,⟨2, 2⟩,

• P (⟨ ⟩) = 1, P (⟨0⟩) = P (⟨1⟩) = P (⟨2⟩) = 2,

• u1(⟨0, q2⟩) = u1(⟨1, 2⟩) = u1(⟨2, 1⟩) = 0,

• u1(⟨1, 0⟩) = u1(⟨2, 0⟩) = 2,

• u1(⟨1, 1⟩) = u2(⟨1, 1⟩) = 1, u1(⟨2, 2⟩) = u2(⟨2, 2⟩) = −2,

• u2(⟨q1, 0⟩) = u2(⟨1, 2⟩) = u2(⟨2, 1⟩) = 0, e

• u2(⟨0, 1⟩) = u2(⟨0, 2⟩) = 2.

Autor: Leandro Chaves Rêgo

Page 61: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 56

4.2.1 Estratégias

Definição 4.2.3: Uma estratégia pura para o jogador i em um jogo em forma extensa cominformação perfeita é uma função si que associa cada história h ∈ Hi um elemento de Mh,ou seja, uma ação disponível para i em h.

Definição 4.2.4: Se Ci é o conjunto de estratégias puras para o jogador i em um jogo emforma extensa com informação perfeita, uma estratégia mista para o jogador i em um jogoem forma extensa é uma distribuição de probabilidade δi em Ci, ou seja, um elemento de∆(Ci).

Para jogos em forma extensa com informação perfeita existe uma outra noção de estraté-gia, chamada de estratégia comportamental, que especifica uma randomização independentepara cada história em que o jogador se move.

Definição 4.2.5: Uma estratégia comportamental para o jogador i em um jogo em formaextensa com informação perfeita é uma função σi que associa cada história h ∈ Hi umelemento de ∆(Mh), ou seja, uma distribuição de probabilidade sobre as ações disponíveispara i em h.

Note que uma estratégia é um plano de contingência completo que explica o que umjogador irá fazer em cada situação que possa aparecer no jogo. A primeira vista, umaestratégia parece especificar ações em excesso, pois ações no começo do jogo podem tornarimpossível que certas histórias sejam atingidas. Então, por que temos que especificar comojogadores se comportam em histórias que nunca serão atingidas se os jogadores seguem certasações no começo do jogo? A razão é que como jogadores se comportam fora da trajetória deequilíbrio será crucial para determinar se um dado perfil de estratégias é um equilíbrio deNash. Ameaças em caminhos fora do equilíbrio podem ser essenciais. Falaremos mais sobreisso adiante.

Exemplo 4.2.6:

Figura 4.2: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador2.

Neste jogo, jogador 1 possui quatro estratégias puras: AE,AF,BE,BF . Jogador 2possui duas estratégias puras: C e D. Note que temos que especificar o que o jogador 1 faráapós a história ⟨B,D⟩, mesmo que ele tenha escolhido A no começo.

Autor: Leandro Chaves Rêgo

Page 62: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 57

4.2.2 Representação em Formal Normal de um Jogo em Forma Ex-tensa com Informação Perfeita

Alguns conceitos de solução para jogos em forma extensiva utilizam uma representação formanormal que é derivada a partir da descrição em forma extensa do jogo. Veremos nesta seçãotrês possíveis maneiras de representar um jogo em forma extensa em uma forma normal:forma normal, forma normal reduzida, e forma multiagente.

Forma Normal

Antes de darmos a definição da representação em forma normal de um jogo em forma extensa,note que dado um perfil de estratégias puras para os jogadores em um jogo em forma extensa,essas estratégias induzem uma distribuição de probabilidade sobre as possíveis históriasdo jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil deestratégias pura s, então Prs(h) representa a probabilidade do jogo atingir a história h dadoque os jogadores seguem as estratégias em s. Temos que Prs(⟨ ⟩) = 1. Se h = h′ · ⟨m⟩, ojogador chance se move após a história h′, e q é a probabilidade com que a chance escolheráa ação m, então temos que Prs(h) = qPrs(h

′). Se h = h′ · ⟨m⟩, e h′ ∈ Hi, então Prs(h) =Prs(h

′) se si(h′) = m, e Prs(h) = 0, se si(h

′) = m. Podemos também definir de formaanáloga, a probabilidade Prσ(h) do jogo atingir a história h dado que os jogadores seguemas estratégias comportamentais em σ, a única diferença da definição anterior é que no caso emque h = h′·⟨m⟩ e h′ ∈ Hi, temos que Prσ(h) = σi(m)Prσ(h

′). A distribuição de probabilidadeinduzida por uma estratégia mista δ ∈ ×i∈N∆(Ci) é dada pelo valor esperado de acordo comδ das distribuições induzidas pelas estratégias puras, ou seja, Prδ(h) =

∑s∈C δ(s)Prs(h).

Exemplo 4.2.7: Considere o jogo do Exemplo 4.2.6. Se o perfil de estratégias puras fors = (BE,C), então teremos Prs(⟨B⟩) = Prs(⟨B,C⟩) = 1, Prs(⟨A⟩) = Prs(⟨B,D⟩) =Prs(⟨B,D,E⟩) = Prs(⟨B,D, F ⟩) = 0. Por outro lado, se tivermos um perfil de estratégiasmistas δ onde cada jogador escolhe suas estratégias puras com igual probabilidade, temosque Prδ(⟨A⟩) = Prδ(⟨B⟩) = 1/2, Prδ(⟨B,C⟩) = Prδ(⟨B,D⟩) = 1/4, Prδ(⟨B,D,E⟩) =Prδ(⟨B,D, F ⟩) = 1/8. Finalmente, se σ for um perfil de estratégias comportamental noqual todos os jogadores em qualquer história após a qual eles se movem escolhem as suasações disponíveis com igual probabilidade, teremos Prσ(h) = Prδ(h), para todo h ∈ H.

Definição 4.2.8: A representação em forma normal de um jogo em forma extensa cominformação perfeita Γ = (N,M,H, P, fc, vi : i ∈ N) é o jogo em forma normal Γn =(N, Ci : i ∈ N, ui : i ∈ N), onde Ci são as estratégias puras do jogador i em Γ e paratodo s ∈ ×i∈NCi, temos

ui(s) =∑z∈Z

Prs(z)vi(z),

ou seja, ui é a utilidade esperada para o jogador i quando os jogadores implementam asestratégias especificadas em s.

Exemplo 4.2.9: Por exemplo, a representação em forma normal do jogo em forma extensadescrito no Exemplo 4.2.6 é dada por:

Autor: Leandro Chaves Rêgo

Page 63: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 58

C DAE 1,1 1,1AF 1,1 1,1BE 0,3 2,2BF 0,3 1,4

Forma Normal Reduzida

Existem alguns jogos em forma extensiva que podemos simplificar sua representação emforma normal, pois existem várias estratégias puras para algum jogador i que têm a mesmautilidade esperada para todos os jogadores não importa qual é a estratégia adotada pelosoutros jogadores. Formalmente, dado qualquer jogo em forma normal Γ = (N, Ci : i ∈N, ui : i ∈ N), duas estratégias puras em di, ei ∈ Ci são equivalentes em utilidade se, esomente se,

uj(di, c−i) = uj(ei, c−i), ∀c−i ∈ C−i,∀j ∈ N.

Portanto, duas estratégias para o jogador i são equivalentes em utilidade se, e somente se,não importa o que os outros jogadores façam, nenhum jogador se importará se o jogador iescolherá di ou ei. Por exemplo, no jogo descrito no Exemplo 4.2.9, as estratégias do jogador 1AE e AF são equivalentes em utilidade. Quando existem estratégias que são equivalentes emutilidade podemos simplificar a representação em forma normal, denotando as estratégiasequivalentes por uma única estratégia. O resultado desta simplificação é conhecido comoforma normal puramente reduzida.

Exemplo 4.2.10: Por exemplo, a representação em forma normal puramente reduzida dojogo em forma extensa descrito no Exemplo 4.2.6 é dada por:

C DA 1,1 1,1BE 0,3 2,2BF 0,3 1,4

Se permitirmos estratégias mistas, podemos ter um outro tipo de redundância em jogoschamada de redundância aleatória que pode nos permitir reduzir ainda mais a representaçãoem forma normal de um jogo. Uma estratégia di ∈ Ci é aleatoriamente redundante se, esomente se, existe uma estratégia mista δi ∈ ∆(Ci) tal que δi(di) = 0 e

uj(di, c−i) =∑ei∈Ci

δi(ei)uj(ei, c−i),∀c−i ∈ C−i,∀j ∈ N.

Portanto, di é aleatoriamente redundante se, e somente se, existe alguma maneira para ojogador i escolher aleatoriamente entre suas outras estratégias puras de forma que, não im-porta qual estratégias serão usadas pelos outros jogadores, todos os jogadores terão a mesma

Autor: Leandro Chaves Rêgo

Page 64: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 59

utilidade esperada quando i utiliza di ou δi. A forma normal completamente reduzida é de-rivada da forma normal puramente reduzida eliminando estratégias que são aleatoriamenteredundantes.

Exemplo 4.2.11:

D EA 6,0 6,0B 0,8 8,0C 3,4 7,0

A estratégia C é aleatoriamente redundante, pois todos os jogadores recebem o mesmopagamento se o jogador linha escolhe C ou a estratégia mista que escolhe A e B com pro-babilidade igual a 1/2. Portanto a forma normal completamente reduzida deste jogo, nãocontém a última linha da tabela acima.

Representação Multiagente

Nesta representação cada jogador i do jogo em forma extensiva é representado por múltiplosagentes um para cada história após a qual o jogador i se move. Dado um jogo com informaçãoperfeita Γ = (N,M,H, P, fc, vi : i ∈ N) seja HN = ∪i∈NHi o conjunto de histórias após aqual algum jogador i se move.

Definição 4.2.12: A representação multiagente de um jogo em forma extensa com infor-mação perfeita Γ = (N,M,H, P, fc, vi : i ∈ N) é o jogo em forma normal Γn = (HN , Mh :h ∈ HN, uh : h ∈ HN), onde relembrando se h ∈ Hi, temos que Mh são as ações dis-poníveis ao jogador i após história h. Para todo perfil de estratégias de Γn, t ∈ ×h∈HN

Mh,seja st um perfil de estratégias de Γ tal que para todo j ∈ N e h ∈ Hj temos stj(h) = th.Então, se h ∈ Hi, uh : ×a∈HN

Ma → IR é uma função utilidade para um jogador h tal queuh(t) =

∑z∈Z Prst(z)vi(z).

Exemplo 4.2.13: Considere novamente o jogo a seguir:

Figura 4.3: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador2.

A representação multiagente tem três jogadores ⟨ ⟩, ⟨B⟩, e ⟨B,D⟩, o jogador ⟨ ⟩ possuiduas ações disponíveis A e B, o jogador ⟨B⟩ possui também duas ações disponíveis C e D,e finalmente o jogador ⟨B,D⟩ possui também duas ações disponíveis E e F . As utilidadessão descritas nas duas tabelas a seguir:

Quando o agente ⟨B,D⟩ escolhe E, temos:

Autor: Leandro Chaves Rêgo

Page 65: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 60

C DA 1,1,1 1,1,1B 0,3,0 2,2,2

E quando o agente ⟨B,D⟩ escolhe F , temos:

C DA 1,1,1 1,1,1B 0,3,0 1,4,1

Quando estamos considerando a representação multiagente, os diferentes agentes do jogoem forma normal que representa o mesmo jogador no jogo em forma extensa são conhecidoscomo agentes temporários. No exemplo, temos que ⟨ ⟩ e ⟨B,D⟩ são dois agentes temporáriospara o jogador 1 do jogo em forma extensa. É importante ressaltar que os diversos agentestemporários para um dado jogador i não podem correlacionar suas estratégias e agem demaneira independente na representação multiagente do jogo, apesar de possuírem a mesmafunção utilidade.

4.2.3 Equilíbrio de Nash

Como existem três tipos de estratégias para um jogo em forma extensa, podemos definir trêstipos de equilíbrios de Nash:

Definição 4.2.14: Dado um jogo em forma extensa com informação perfeita Γ = (N,M,H, P, fc, vi :i ∈ N), um perfil de estratégias s é um equilíbrio de Nash em estratégias puras de Γ se, esomente se,

ui(s) =∑z∈Z

Prs(z)vi(z) ≥ ui(s−i, di) =∑z∈Z

Pr(s−i,di)(z)vi(z)

para todo jogador i e toda estratégia di ∈ Ci.

Definição 4.2.15: Dado um jogo em forma extensa com informação perfeita Γ = (N,M,H, P, fc, vi :i ∈ N), um perfil de estratégias δ é um equilíbrio de Nash em estratégias mistas de Γ se, esomente se,

ui(δ) =∑s∈C

δ(s)∑z∈Z

Prs(z)vi(z) ≥ ui(δ−i, βi) =∑s∈C

δ−i(s−i)βi(si)∑z∈Z

Prs(z)vi(z)

para todo jogador i e toda estratégia mista βi ∈ ∆(Ci).

Definição 4.2.16: Dado um jogo em forma extensa com informação perfeita Γ = (N,M,H, P, fc, vi :i ∈ N), um perfil de estratégias σ é um equilíbrio de Nash em estratégias comportamentaisde Γ se, e somente se,

ui(σ) =∑z∈Z

Prσ(z)vi(z) ≥ ui(σ−i, τi) =∑z∈Z

Pr(σ−i,τi)(z)vi(z)

para todo jogador i e toda estratégia comportamental τi ∈ ×h∈Hi∆(Mh).

Autor: Leandro Chaves Rêgo

Page 66: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 61

Exemplo 4.2.17: No jogo do Exemplo 4.2.6, temos que (A,C,E), (A,C, F ), e (A,D, F )são os únicos equilíbrios de Nash em estratégias puras.

Equilíbrio de Nash não é um conceito de solução muito razoável para alguns jogos ex-tensivos, por que ele permite que muitos perfis de estratégias sejam equilíbrios, alguns aténão-intuitivos.

Exemplo 4.2.18:

Figura 4.4: Jogo com equilíbrio de Nash não-intuitivo.

Neste jogo temos que (downA,acrossB) é um equilíbrio de Nash do jogo. Neste equilíbrio,jogador A escolhe downA por que ele pensa que o jogador B escolherá acrossB. Então,a ameaça do jogador B de jogar acrossB faz com que o jogador A escolha downA. Noteque neste equilíbrio esta ameaça nunca se concretiza, pois o jogador B não tem chancede escolher. Contudo, se o jogador B em algum caso tivesse oportunidade de participardeste jogo, temos que ele não cumpriria sua ameaça, pois lhe é vantajoso escolher downB.Portanto, a ameaça do jogador B é inacreditável. Isto sugere que devemos apenas considerarum subconjunto dos equilíbrios de Nash que não são baseados em ameaças inacreditáveis.O próximo conceito de solução é conhecido como equilíbrio de subjogo perfeito e impede queequilíbrios contenham ameaças inacreditáveis.

4.2.4 Equilíbrio de Subjogo Perfeito

Vimos em geral que quando analisamos equilíbrios de Nash de jogos em forma extensiva estespodem conter muitos equilíbrios. Muitos desses equilíbrios podem parecer não razoáveis poissão baseados em ameaças inacreditáveis. Equilíbrio de Subjogo Perfeito é um refinamentode equilíbrio de Nash que não permite ameaças inacreditáveis.

Definição 4.2.19: Um subjogo G de um jogo em forma extensiva Γ = (N,M,H, P, fc, vi :i ∈ N) é um outro jogo em forma extensiva que satisfaz:

1. O conjunto de histórias HG em G consiste de uma única história em H e todos ashistórias subsequentes a h;

Autor: Leandro Chaves Rêgo

Page 67: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.2. JOGOS COM INFORMAÇÃO PERFEITA 62

2. A distribuição de probabilidade sobre as ações da natureza em G são as mesmas dascorrespondentes ações em Γ;

3. A utilidades de trajetórias completas em G são as mesmas utilidades das correspon-dentes trajetórias completas em Γ.

Definição 4.2.20: Um perfil de estratégia (puro, misto, ou comportamental) s∗ é um equi-líbrio de subjogo perfeito em estratégias (puras, mistas, ou comportamentais, respectiva-mente) de Γ se ele for equilíbrio de Nash em estratégias (puras, mistas, ou comportamentais,respectivamente) de todo subjogo de Γ.

Note que um equilíbrio de subjogo perfeito também é um equilíbrio de Nash porque ojogo Γ também é um subjogo degenerado dele mesmo.

Indução Reversa

A técnica mais comum para encontrar os equilíbrios de subjogo perfeito de um jogo finito Γ éconhecida como indução reversa. Intuitivamente, temos que a técnica sugere que se comecepelo fim do jogo e vá resolvendo até chegar ao começo do jogo. Podemos descrever maisformalmente esta técnica nos seguintes passos:

1. Seja k = 1 e Γ(k) = Γ.

2. Seja Z−1 o conjunto de todas as histórias que são antecessoras imediatas das históriasterminais do jogo Γ(k). Para todo i ∈ N e h ∈ Z−1 ∩ Hi, o jogador i enfrenta umproblema de decisão após história h, e portanto deve escolher a ação que maximizasua utilidade esperada. Se houver mais de uma ação que produza a mesma utilidadeesperada, existirá um equilíbrio de subjogo perfeito contendo cada uma dessas ações.Escolha uma delas para ser a ação escolhida por i segundo a estratégia s, isto é, façasi(h) = a ∈ argmaxb∈Mh

ui(h · ⟨b⟩). Passe ao passo seguinte.

3. Defina o jogo Γ(k + 1) da seguinte maneira:

(a) Para todo h ∈ Z−1∩ (∪i∈NHi), substitua as ações em Mh do jogo Γ(k), pelo vetorde utilidades que corresponde a história terminal atingida pela ação escolhida nopasso anterior. Passe ao passo seguinte.

(b) Para todo h ∈ Z−1 ∩ (∪i∈NHi)c, isto é uma história imediatamente antecessora a

uma história terminal do jogo Γ(k) onde chance se move, substitua as ações emMh, pelo vetor de utilidades que corresponde a utilidade esperada dos jogadoresde acordo com a distribuição de probabilidade que descreve as probabilidades dojogador chance escolher cada uma das ações em Mh. Passe ao passo seguinte.

4. Se o conjunto de todas as histórias de Γ(k+1) em que algum jogador i ∈ N se move forvazio. Pare a iteração e temos que s é um equilíbrio de subjogo perfeito em estratégiaspuras de Γ. Caso contrário, passe ao passo seguinte.

Autor: Leandro Chaves Rêgo

Page 68: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 63

5. Faça k = k + 1. Volte ao passo 2.

É fácil ver que como o jogo é finito, após um número finito de iterações o algoritmoacima descrito produzirá um equilíbrio de subjogo perfeito em estratégias puras. Destaforma, provamos construtivamente o seguinte teorema:

Teorema 4.2.21: Qualquer jogo em forma extensiva com informação perfeita finito tem umequilíbrio de subjogo perfeito puro.

Exemplo 4.2.22: No jogo do Exemplo 4.2.6, temos que (A,C,E) é o único equilíbrio desubjogo perfeito.

Exemplo 4.2.23: No jogo do Exemplo 4.2.18, temos que (acrossA,downB) é o único equilí-brio de subjogo perfeito.

4.3 Jogos com Informação ImperfeitaAgora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua decisão apósalguma história do jogo, podem ter somente uma informação parcial sobre as ações que jáforam tomadas no jogo. Note que um jogo em forma normal é um caso particular de umjogo extensivo com informação imperfeita, pois neste caso todos os jogadores se movem umaúnica vez e cada um deles não possui nenhuma informação a respeito das ações dos outrosjogadores quando toma a sua decisão.

Formalmente, temos que um jogo em forma extensa com informação imperfeita é umvetor Γ = (N,M,H, P, fc, Ii : i ∈ N, ui : i ∈ N), onde

• (N,M,H, P, fc, ui : i ∈ N) é um jogo em forma extensa com informação perfeita, e

• Ii é uma partição de Hi com a propriedade que se h e h′ estão na mesma célula dapartição, então Mh = Mh′ , ou seja, o mesmo conjunto de ações está disponível emtodas as histórias de uma mesma célula da partição; se h ∈ I, onde I é uma célulada partição, denota-se por MI o conjunto Mh de ações disponíveis. Intuitivamente,se h e h′ estão na mesma célula de Ii, então h e h′ são indistinguíveis do ponto devista do jogador i; i considera a história h′ possível se a verdadeira história for h, evice versa. Uma célula I ∈ Ii é conhecida como um conjunto de informação para ojogador i ou como um i-conjunto de informação. Quando desenhamos um jogo emforma extensa com informação imperfeita em uma árvore circulamos ou interligamosos nós pertencentes a um mesmo conjunto de informação com uma linha tracejada.

Como anteriormente, um jogo em forma extensa com informação imperfeita é finito seN,M, e H forem finitos.

Exemplo 4.3.1:No jogo da Figura 4.5, temos

• N = 1, 2, H = ⟨ ⟩, ⟨A⟩, ⟨B⟩, ⟨C⟩, ⟨B,D⟩, ⟨C,D⟩, ⟨B,E⟩, ⟨C,E⟩ ⟨B,E, F ⟩,⟨B,E,G⟩, ⟨C,E,H⟩, ⟨C,E, I⟩,

Autor: Leandro Chaves Rêgo

Page 69: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 64

Figura 4.5: Jogo em Forma Extensiva com Informação Imperfeita.

• P (⟨ ⟩) = P (⟨B,E⟩) = P (⟨C,E⟩) = 1, e P (⟨B⟩) = P (⟨C⟩) = 2,

• I1 = ⟨ ⟩, ⟨B,E⟩, ⟨C,E⟩, I2 = ⟨B⟩, ⟨C⟩,

• u1(⟨A⟩) = u2(⟨A⟩) = u1(⟨C,D⟩) = u1(⟨C,E, I⟩) = u1(⟨B,E,G⟩) = u2(⟨C,E,H⟩) = 1,

• u1(⟨B,E, F ⟩) = u2(⟨B,E, F ⟩) = 2,

• u2(⟨B,D⟩) = u2(⟨C,E, I⟩) = 3,

• u2(⟨B,E,G⟩) = 4, e

• u1(⟨C,E,H⟩) = u2(⟨C,D⟩) = 5.

4.3.1 Memória Perfeita e Memória Imperfeita

Na maior parte deste curso, como na maioria dos trabalhos em teoria dos jogos, nós assumi-mos que jogadores têm memória perfeita: eles recordam de todas as ações que eles própriostomaram e de todos os conjuntos de informação pelos quais eles passaram. Formalmente,vamos requerer que

• se h e h′ estão no mesmo conjunto de informação do jogador i e h1 é um prefixo de htal que P (h1) = i, então existe um prefixo h′

1 de h′ tal que h1 e h′1 estão no mesmo

conjunto de informação; além disso, se h1 · ⟨m⟩ for um prefixo de h (de forma que mfoi a ação realizada quando h1 foi atingida na história h), então h′

1 · ⟨m⟩ é um prefixode h′ (portanto, i lembra que ele realizou ação m).

Podemos ver um jogo extenso com informação perfeita como um caso particular do jogoextenso com informação imperfeita onde todos os conjuntos de informação contém uma únicahistória. É fácil verificar que em todo jogo com informação perfeita, todos os jogadores têmmemória perfeita.

Podemos distinguir 3 tipos diferentes de memória imperfeita:

Autor: Leandro Chaves Rêgo

Page 70: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 65

• Falta de memória sobre a sequência de conjuntos de informação pelo qual o jogadorpassou;

• Falta de memória sobre ações já realizadas pelo jogador; e

• Falta de memória sobre se o jogador já realizou ou não uma dada ação.

A Figura 4.6 ilustra jogos extensivos da esquerda para a direita que apresentam estes 3tipos de falta de memória, respectivamente.

Figura 4.6: Jogos Extensivos com Memória Imperfeita.

Apesar de não ter recebido muita atenção da literatura, jogos com memória imperfeitatêm tido cada vez mais aplicações principalmente quando estamos tratando de agentes com-putacionais que possuem memória finita e têm de realizar uma dada escolha repetidas vezes.Eventualmente, tais agentes não se recordam das ações que eles realizaram no passado, ouque conjuntos de informação eles já visitaram. Existem outras situações onde também mo-delos de jogos com memória imperfeita parecem ser razoáveis. Suponha, por exemplo, quequeremos modelar uma partida de xadrez. Parece razoável supor que os jogadores não ne-cessariamente se lembram de todas as jogadas efetuadas ao longo da partida e em que ordemelas foram executadas.

A análise de jogos com memória imperfeita envolve sutilezas fora do escopo deste curso.Portanto, no que se segue estaremos sempre assumindo jogos com memória perfeita, excetoquando mencionarmos explicitamente o contrário.

4.3.2 Estratégias

Podemos definir de maneira análoga ao caso de jogos com informação perfeita, o que sãoestratégias puras, mistas e comportamentais em jogos com informação imperfeita. A únicadiferença é que as definições agora garantem que os jogadores só podem tomar a mesmadecisão em histórias que eles não conseguem distinguir.

Definição 4.3.2: Uma estratégia pura para o jogador i em um jogo em forma extensa cominformação imperfeita é uma função si que associa cada conjunto de informação Ii do jogadori um elemento de MIi , ou seja, uma ação disponível para i quando se move no conjunto deinformação Ii.

Autor: Leandro Chaves Rêgo

Page 71: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 66

Definição 4.3.3: Se Ci é o conjunto de estratégias puras para o jogador i em um jogo emforma extensa com informação imperfeita, uma estratégia mista para o jogador i em um jogoem forma extensa é uma distribuição de probabilidade δi em Ci, ou seja, um elemento de∆(Ci).

Definição 4.3.4: Uma estratégia comportamental para o jogador i em um jogo em formaextensa com informação imperfeita é uma função σi que associa cada conjunto de informaçãoIi do jogador i um elemento de ∆(MIi), ou seja, uma distribuição de probabilidade sobre asações disponíveis para i quando se move no conjunto de informação Ii.

Exemplo 4.3.5: No jogo do Exemplo 4.3.1, temos que o jogador 1 possui 12 estratégiaspuras: AFH,AFI,AGH,AGI,BFH,BFI,BGH,BGI,CFH,CFI,CGH,CGI. O jogador 2possui 2 estratégias puras: D e E.

Observação 4.3.6: Eventualmente, abusaremos um pouco da notação e para todo h ∈ I,usaremos si(h) e σi(h) para denotar as ações escolhidas pelas estratégias si e σi no conjuntode informação I.

Equivalência entre Estratégias Mistas e Comportamentais

Nosso objetivo nesta seção é provar que para jogos extensivos com informação imperfeitafinitos onde os jogadores possuem memória perfeita, existe uma equivalência entre estratégiasmistas e comportamentais. Antes de enunciarmos e provarmos a equivalência, precisamosde duas definições.

Definição 4.3.7: Definem-se duas estratégias (mistas ou comportamentais) de um dadojogador como equivalentes em utilidade, se para qualquer coleção de estratégias puras paraos demais jogadores, as duas estratégias induzem a mesma distribuição de probabilidadesobre as histórias terminais do jogo.

Definição 4.3.8: Para qualquer história h, temos que uma estratégia pura si para o jogadori é consistente com h, se para todo prefixo h′ · ⟨m⟩ de h, onde P (h′) = i, temos que si(h

′) =m. Intuitivamente, si é consistente com h se existe algum perfil de estratégias puras dosoutros jogadores que juntamente com si tornem possível que a história h seja atingida comprobabilidade positiva. No jogo do Exemplo 4.3.1, temos que a estratégia BGH do jogadori é consistente com a história ⟨B,D⟩, mas não é consistente com a história ⟨B,E, F ⟩ nemcom a história ⟨C,E⟩. Seja Ci(h) o conjunto de estratégias puras do jogador i consistentescom a história h.

Teorema 4.3.9: Se em um jogo em forma extensiva finito, não existe falta de memóriasobre se o jogador já realizou ou não uma dada ação, então temos que toda estratégia com-portamental de um jogador tem uma estratégia mista equivalente em utilidade.

Prova: Seja σi uma estratégia comportamental para o jogador i. Considere a seguinte estra-tégia mista δi que dá probabilidade

∏I∈Ii σi(I)(si(I)) a estratégia pura si. Seja t−i um perfil

Autor: Leandro Chaves Rêgo

Page 72: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 67

de estratégias puras para os jogadores diferentes de i. Vamos verificar que Pr(σi,t−i)(h) =Pr(δi,t−i)(h), ∀h ∈ H, e consequentemente σi e δi são equivalentes em utilidade.

Seja h uma história qualquer do jogo. Temos que considerar dois casos. Primeiro, assumaque ∃j ∈ N − i tal que tj /∈ Cj(h). Neste caso, temos que Pr(σi,t−i)(h) = Pr(δi,t−i)(h) = 0.Assuma então que ∀j ∈ N − i temos tj ∈ Cj(h). Então, temos que:

Pr(σi,t−i)(h) = (∏

h′∈Hi,h′·⟨m⟩∈X(h)

σi(h′)(m))(

∏h′∈Hc,

h′·⟨m⟩∈X(h)

fc(m|h′)),

pois ao longo da história h as escolhas feitas pelo jogador i são independentes por definiçãode σ e pelo fato que assumimos que não existe falta de memória se um jogador já realizouou não uma ação. Por outro lado, para uma estratégia pura si temos que Pr(si,t−i)(h) = 0se si /∈ Ci(h) e, em caso contrário temos:

Pr(si,t−i)(h) =∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′).

Logo, temos que

Pr(δi,t−i)(h) =∑si∈Ci

δ(si)Pr(si,t−i)(h)

=∑

si∈Ci(h)

∏I∈Ii

σi(I)(si(I))∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′)

=∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′)∑

si∈Ci(h)

∏I∈Ii

σi(I)(si(I))

=∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′)∑

si∈Ci(h)

(∏I∈Ii,

X(h)∩I =∅

σi(I)(si(I))∏I∈Ii,

X(h)∩I=∅

σi(I)(si(I)))

= (∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′))(∏

h′∈Hi,h′·⟨m⟩∈X(h)

σi(h′)(m))× A(h),

onde

A(h) =

si∈Ci(h)∏

I∈Ii,X(h)∩I=∅

σi(I)(si(I)) , se h /∈ Hi∑si∈Ci(h) σi(h)(si(h))

∏I∈Ii,

X(h)∩I=∅σi(I)(si(I)) , se h ∈ Hi

Como a única restrição para uma estratégia pura si pertencer a Ci(h) é que ela especifiqueuma ação que leve a história h em qualquer prefixo estrito de h onde o jogador i se move, entãotemos que essas estratégias podem especificar qualquer ação nos conjuntos de informaçãopara o jogador que contém h ou que não contenham prefixos de estritos de h. Desta forma

Autor: Leandro Chaves Rêgo

Page 73: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 68

rearrumando os termos dos somatório podemos reescrever:

A(h) =

I∈Ii,X(h)∩I=∅

∑a∈MI

σi(I)(a) , se h /∈ Hi

(∑

a∈Mhσi(h)(a))

∏I∈Ii,

X(h)∩I=∅

∑a∈MI

σi(I)(a) , se h ∈ Hi

= 1.

Portanto,

Pr(δi,t−i)(h)

= (∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′))(∏

h′∈Hi,h′·⟨m⟩∈X(h)

σi(h′)(m))

= Pr(σi,t−i)(h)

Exemplo 4.3.10: Considere novamente o jogo do Exemplo 4.3.1. Seja σ1 a estratégiacomportamental do jogador 1 que escolhe A com probabilidade 1/2, B e C com probabilidade1/4 e G e H com probabilidade 1. De acordo com a construção do teorema a estratégia mistaδ1 que é equivalente em utilidade a σ1 é tal que AGH recebe probabilidade 1/2, BGH eCGH recebem probabilidade 1/4. Se o jogador 2 escolher a estratégia pura D, então

Pr(σ1,D) = Pr(δ1,D)(h) =

1/2, se h = ⟨A⟩1/4, se h = ⟨B⟩ ou h = ⟨C⟩ ou h = ⟨B,D⟩ ou h = ⟨C,D⟩0, caso contrário

Enquanto se o jogador 2 escolher a estratégia pura E, então

Pr(σ1,E) = Pr(δ1,E)(h) =

1/2, se h = ⟨A⟩1/4, se h = ⟨B⟩ ou h = ⟨C⟩ ou h = ⟨B,E⟩ ou h = ⟨C,E⟩

ou h = ⟨B,E,G⟩ ou h = ⟨C,E,H⟩0, caso contrário

Dada uma estratégia comportamental σi para o jogador i. A estratégia mista δi que dáprobabilidade

∏I∈Ii σi(I)(si(I)) a estratégia pura si é chamada uma representação mista de

σi.Para ver um exemplo da necessidade da hipótese que o jogo não pode ter falta de me-

mória se um jogador já realizou ou não uma ação para encontrarmos uma estratégia mistaequivalente considere o seguinte exemplo.

Exemplo 4.3.11:Considere o Jogo da Figura 4.7. Suponha a estratégia comportamental que escolhe ação

a com probabilidade p ∈ (0, 1). Esta estratégia induz probabilidades p2, p(1 − p), 1 − pnas histórias terminais ⟨a, a⟩, ⟨a, b⟩, ⟨b⟩, respectivamente. Contudo qualquer estratégia mistainduz probabilidade zero na história ⟨a, b⟩. Portanto, não existe estratégia mista equivalentea estratégia comportamental dada neste jogo.

Autor: Leandro Chaves Rêgo

Page 74: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 69

Figura 4.7: Jogo extensivo onde não existe estratégia mista equivalente.

O próximo teorema prova a recíproca do teorema anterior para jogos com memória per-feita.

Teorema 4.3.12: Para qualquer estratégia mista de um jogo extensivo finito com memóriaperfeita, existe uma estratégia comportamental equivalente em utilidade.

Prova: Seja δi uma estratégia mista para o jogador i. Para qualquer história h, seja

πi(h) =∑

si∈Ci(h)

δ(si),

ou seja, πi(h) é a soma das probabilidades das estratégias puras do jogador i consistentes coma estratégia h. Dizemos que δi é consistente com h se, e somente se, πi(h) > 0. Como o jogotem memória perfeita, para quaisquer histórias h e h′ no mesmo conjunto de informação dojogador i, temos que Ci(h) = Ci(h′) e, consequentemente, πi(h) = πi(h

′). Além disso, comopara qualquer estratégia pura temos que o jogador i deve escolher uma mesma ação em he h′, temos que Ci(h · ⟨m⟩) = Ci(h′ · ⟨m⟩) e, consequentemente, πi(h · ⟨m⟩) = πi(h

′ · ⟨m⟩).Vamos agora, definir uma estratégia comportamental σi que provaremos ser equivalente emutilidade a δi. Seja I um conjunto de informação qualquer para o jogador i. Seja h ∈ Ital que πi(h) > 0, defina σi(I)(m) = πi(h·⟨m⟩)

πi(h). Como uma estratégia pura si é consistente

com h se, e somente se, ela for consistente com exatamente uma história h · ⟨m⟩, temos que∑m∈MI

πi(h · ⟨m⟩) = πi(h). Portanto, temos que∑

m∈MIσi(I)(m) = 1. Se πi(h) = 0, defina

σi(I) de forma arbitrária. σi é chamada de uma representação comportamental de δi.Seja t−i um perfil de estratégias puras para os jogadores diferentes de i. Vamos verificar

que Pr(σi,t−i)(h) = Pr(δi,t−i)(h),∀h ∈ H, e consequentemente σi e δi são equivalentes emutilidade.

Seja h uma história qualquer do jogo. Temos que considerar dois casos. Primeiro, assumaque ∃j ∈ N − i tal que tj /∈ Cj(h). Neste caso, temos que Pr(σi,t−i)(h) = Pr(δi,t−i)(h) = 0.Assuma então que ∀j ∈ N − i temos tj ∈ Cj(h).

Como temos um jogo finito e πi(⟨ ⟩) = 1, para qualquer história h tal que πi(h) = 0existe um último prefixo h′ de h que é consistente com a estratégia δi. Mais formalmente, seπi(h) = 0, então existe h′ ∈ X(h) tal que πi(h

′) > 0 e para toda história h′′ ∈ X(h)−X(h′),

Autor: Leandro Chaves Rêgo

Page 75: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 70

temos que πi(h′′) = 0. Se h′ ∈ I, e h′ · ⟨m⟩ ∈ X(h), então σi(I)(m) = 0. Consequentemente,

temos que Pr(σi,t−i)(h) = 0 = Pr(δi,t−i)(h).Finalmente, considere o caso em que πi(h) > 0. Por definição, temos que πi(h

′) > 0,∀h′ ∈X(h). Note ainda que se h′ é o primeiro prefixo de h no qual o jogador i se move, temosque πi(h

′) = 1, e que se h′ · ⟨m⟩ e h′′ são dois prefixos de h tais que o jogador i se moveem h′ e h′′, e não existe nenhum outro prefixo de h entre h′ e h′′ no qual i se move, entãoπi(h

′ · ⟨m⟩) = πi(h′′). Além disso, se h3 e h4 são dois prefixos de h tal que o jogador i não se

move entre h3 e h4, temos que πi(h3) = πi(h

4). Então, temos que:

Pr(σi,t−i)(h) = (∏

h′∈Hi,h′·⟨m⟩∈X(h)

σi(h′)(m))(

∏h′∈Hc,

h′·⟨m⟩∈X(h)

fc(m|h′))

= (∏

h′∈Hi,h′·⟨m⟩∈X(h)

πi(h′ · ⟨m⟩)

πi(h′))(

∏h′∈Hc,

h′·⟨m⟩∈X(h)

fc(m|h′))

= πi(h)(∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′))

= (∑

si∈Ci(h)

δ(si))(∏

h′∈Hc,h′·⟨m⟩∈X(h)

fc(m|h′))

=∑

si∈Ci(h)

δ(si)Pr(si,t−i)(h) = Pr(δi,t−i)(h)

Exemplo 4.3.13: Considere novamente o jogo do Exemplo 4.3.1. Seja δ1 a estratégia mistado jogador 1 que escolhe AFH com probabilidade 1/2, BFI e BGH com probabilidade1/4. Temos que π1(⟨ ⟩) = 1, π1(⟨A⟩) = 1/2, π1(⟨B⟩) = π1(⟨B,E⟩) = 1/2, π1(⟨C⟩) =0, π1(⟨B,E, F ⟩) = π1(⟨B,E,G⟩) = 1/4. De acordo com a construção do teorema umaestratégia comportamental σ1 que é equivalente em utilidade a δ1 é tal que σ1(⟨ ⟩)(A) =σ1(⟨ ⟩)(B) = 1/2, σ1(⟨B,E⟩)(F ) = σ1(⟨B,E⟩)(G) = 1/2 e σ1(⟨C,E⟩) escolhe arbitrariamenteentre H e I.

O próximo exemplo ilustra a necessidade da hipótese de memória perfeita para a exis-tência de uma estratégia comportamental equivalente em utilidade a uma estratégia mistaqualquer.

Exemplo 4.3.14:Considere o Jogo da Figura 4.8. Considere a estratégia mista na qual o jogador 1 escolhe

LL com probabilidade 12

e RR com probabilidade 12. Esta estratégia induz probabilidades

1/2, 0, 0, 1/2 nas histórias terminais ⟨L,L⟩, ⟨L,R⟩, ⟨R,L⟩, ⟨R,R⟩, respectivamente. Suponhauma estratégia comportamental σi tal que σi(∅)(L) = p e σi(⟨L⟩, ⟨R⟩)(L) = q. Note queesta estratégia induz probabilidade 0 a história ⟨L,R⟩ se, e somente se, p = 0 ou q = 0. Porémneste caso, temos que ela também induz probabilidade 0 a ⟨L,L⟩ ou a ⟨R,R⟩. Portanto, nãoexiste estratégia comportamental equivalente a estratégia mista dada.

Autor: Leandro Chaves Rêgo

Page 76: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 71

Figura 4.8: Jogo extensivo onde não existe estratégia comportamental equivalente.

4.3.3 Representação em Formal Normal de um Jogo em Forma Ex-tensa com Informação Imperfeita

Note que as definições das representações em forma normal e normal reduzida para jogoscom informação imperfeita são idênticas a definições correspondentes para o caso de jogoscom informação perfeita, apenas levando em conta as mudanças na definição do que sãoagora estratégias puras. O caso da definição da representação multiagente precisa de maisalgumas alterações. Agora ao invés de termos um agente temporário para cada história emque um dado jogador i se move no jogo Γ com informação imperfeita, teremos um agentetemporário para cada conjunto de informação do jogador i. Formalmente,

Definição 4.3.15: A representação multiagente de um jogo em forma extensa com infor-mação imperfeita Γ = (N,M,H, P, fc, Ii : i ∈ N, vi : i ∈ N) é o jogo em forma normalΓn = (I : I ∈ ∪i∈NIi, MI : I ∈ ∪i∈NIi, uI : I ∈ ∪i∈NIi), onde relembrando se I ∈ Ii,temos que MI são as ações disponíveis ao jogador i no conjunto de informação I. Para todoperfil de estratégias de Γn, t ∈ ×J∈∪i∈NIiMJ , seja st um perfil de estratégias de Γ tal quepara todo j ∈ N e J ∈ Ij temos stj(J) = tJ . Então, uI : ×J∈∪i∈NIiMJ → IR é uma funçãoutilidade para um jogador I ∈ Ii tal que uI(t) =

∑z∈Z Prst(z)vi(z).

Novamente temos que todos os agentes temporários de um mesmo jogador possuem amesma função utilidade.

Exemplo 4.3.16: Considere novamente o jogo a seguir:A representação multiagente tem quatro jogadores jogadores ⟨ ⟩,⟨B⟩, ⟨C⟩,⟨B,E⟩, e

⟨C,E⟩. Os jogadores ⟨ ⟩, ⟨B,E⟩, e ⟨C,E⟩ são agentes temporários do jogador 1 do jogoem forma extensiva, enquanto o jogador ⟨B⟩, ⟨C⟩ é o único agente temporário do jogador2. O jogador ⟨ ⟩ possui três ações disponíveis A, B e C, o jogador ⟨B⟩, ⟨C⟩ possui duasações disponíveis D e E, o jogador ⟨B,E⟩, possui duas ações disponíveis F e G, e finalmenteo jogador ⟨C,E⟩ possui também duas ações disponíveis H e I. Se ⟨ ⟩ escolhe B, ⟨B⟩, ⟨C⟩escolhe E, ⟨B,E⟩, escolhe F , e ⟨B,E⟩, escolhe I, temos que todos os agentes temporáriostêm utilidade esperada igual a 2.

Autor: Leandro Chaves Rêgo

Page 77: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 72

Figura 4.9: Jogo em Forma Extensiva com Informação Imperfeita.

4.3.4 Equilíbrio de Nash

Assim como no caso de jogos em forma extensiva com informação perfeita, podemos definirtrês tipos de Equilíbrio de Nash, um para cada tipo de perfil de estratégias:

Definição 4.3.17: Dado um jogo em forma extensa com informação imperfeita Γ = (N,M,H, P, fc, Ii :i ∈ N, vi : i ∈ N), um perfil de estratégias s é um equilíbrio de Nash em estratégias purasde Γ se, e somente se,

ui(s) =∑z∈Z

Prs(z)vi(z) ≥ ui(s−i, di) =∑z∈Z

Pr(s−i,di)(z)vi(z)

para todo jogador i e toda estratégia di ∈ Ci.

Definição 4.3.18: Dado um jogo em forma extensa com informação imperfeita Γ = (N,M,H, P, fc, Ii :i ∈ N, vi : i ∈ N), um perfil de estratégias δ é um equilíbrio de Nash em estratégias mistasde Γ se, e somente se,

ui(δ) =∑s∈C

δ(s)∑z∈Z

Prs(z)vi(z) ≥ ui(δ−i, βi) =∑s∈C

δ−i(s−i)βi(si)∑z∈Z

Prs(z)vi(z)

para todo jogador i e toda estratégia mista βi ∈ ∆(Ci).

Definição 4.3.19: Dado um jogo em forma extensa com informação imperfeita Γ = (N,M,H, P, fc, Ii :i ∈ N, vi : i ∈ N), um perfil de estratégias σ é um equilíbrio de Nash em estratégiascomportamentais de Γ se, e somente se,

ui(σ) =∑z∈Z

Prσ(z)vi(z) ≥ ui(σ−i, τi) =∑z∈Z

Pr(σ−i,τi)(z)vi(z)

para todo jogador i e toda estratégia comportamental τi ∈ ×h∈Hi∆(Mh).

Autor: Leandro Chaves Rêgo

Page 78: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 73

Exercício: Encontre os equilíbrios de Nash em estratégias puras do jogo do Exem-plo 4.3.16.

Pode-se definir equilíbrio de subjogo perfeito de maneira análoga para jogos com infor-mação imperfeita. A única diferença é na definição do que é um subjogo G de um jogo cominformação imperfeita. Neste caso, temos que a definição é idêntica, somente com a restriçãoque se I∩HG = ∅, então I∩H = I∩HG, isto é todos os conjuntos de informação do subjogodevem ser idênticos aos conjuntos de informação do jogo original. Isto, por exemplo, implicaque a história raiz de qualquer subjogo deve pertencer a um conjunto de informação quecontém apenas uma única história no jogo original.

Para jogos extensivos com informação imperfeita, existe ainda um outro refinamento queevita alguns equilíbrios de Nash que não são intuitivos conhecido como equilíbrio sequencial.

4.3.5 Equilíbrio sequencial

Equilíbrio sequencial é definido com respeito a uma avaliação, um par (σ, µ) onde σ é umperfil de estratégias comportamentais e µ é um sistema de crenças, isto é, uma função quedetermina para cada conjunto de informação I uma probabilidade µI sobre as histórias em I.Intuitivamente, se I é um conjunto de informação para o jogador i, µI é a avaliação subjetivade i da verossimilhança relativa das histórias em I. Informalmente, uma avaliação é umequilíbrio sequencial se para todos os jogadores i, em todos os i-conjuntos de informação, (a)i escolhe uma melhor resposta dada as crenças que ele tem sobre as histórias neste conjuntode informação e as estratégias dos outros jogadores, e (b) as crenças de i são consistentescom o perfil de estratégias sendo jogado, no sentido que elas são calculadas condicionandoa distribuição de probabilidade induzida pelo perfil de estratégia sobre as histórias no dadoconjunto de informação.

Note que µI é definido mesmo se I é atingido com probabilidade 0 de acordo com algumperfil de estratégia σ. Definir consistência em um conjunto de informação que é atingidocom probabilidade 0 é um pouco sutil. Neste caso, intuitivamente, quando o conjunto deinformação I é atingido o jogador i que se move em I deve acreditar que o jogo está sendojogado de acordo com um perfil de estratégias alternativo. Em um equilíbrio sequencial, esteperfil de estratégias alternativo consiste de uma pequena perturbação da avaliação originalonde todas as ações são escolhidas com probabilidade positiva.

Dado um perfil de estratégias σ, seja Prσ a distribuição de probabilidade induzida porσ sobre as possíveis histórias jogo como definido na Seção 4.2.2. Intuitivamente, Prσ(h)é o produto das probabilidades de cada uma das ações que levam a h. Por simplicidade,assumimos que fc > 0, de forma que se σ é tal que todo jogador escolhe todas as suas açõescom probabilidade positiva, então para toda história h, Prσ(h) > 0. Para qualquer históriah do jogo, defina Prσ(· | h) como a distribuição de probabilidade condicional induzida por σsobre as possíveis histórias do jogo dado que a história atual é h. Intuitivamente, Prσ(h

′ | h)é igual a 0 se h não for um prefixo de h′, é igual a 1 se h = h′, e é o produto da probabilidadede cada uma das ações no caminho que leva h à h′ se h for um prefixo de h′. Formalmente,uma avaliação (σ, µ) é um equilíbrio sequencial se ela satisfaz as seguintes condições:

• Racionalidade sequencial. Para todo jogador i, conjunto de informação I ∈ Ii, e toda

Autor: Leandro Chaves Rêgo

Page 79: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 74

estratégia comportamental τ para o jogador i,

EUi((σ, µ) | I) ≥ EUi(((σ−i, τ), µ) | I),

onde EUi((σ, µ) | I) =∑

h∈I∑

z∈Z µI(h)Prσ(z | h)ui(z).

• Consistência entre o sistema de crenças e o perfil de estratégias. Se σ consiste deestratégias comportamentais que dão probabilidade positiva a todas as ações em todosos conjuntos de informações, então para todo conjunto de informação I e história hem I,

µI(h) =Prσ(h)∑

h′∈I Prσ(h′).

Caso contrário, existe uma sequência (σn, µn), n = 1, 2, 3, . . ., de avaliações tal queσn é um perfil de estratégias que dá probabilidade positiva a todas as ações em todosos conjuntos de informação, (σn, µn) é consistente no sentido do parágrafo anterior, elimn→∞(σn, µn) = (σ, µ).

Podemos agora enunciar dois importantes teoremas que justificam que esta é uma noçãorazoável de equilíbrio.

Teorema 4.3.20: Se (σ, µ) for um equilíbrio sequencial de um jogo em forma extensiva commemória perfeita, então σ é um equilíbrio de Nash em estratégias comportamentais do jogo.

Prova: Suponha, por absurdo, que (σ, µ) é um equilíbrio sequencial, mas σ não é umequilíbrio de Nash. Então existe i ∈ N e τi uma estratégia comportamental para o jogadori tal que

ui(σ) =∑z∈Z

Prσ(z)vi(z) < ui(σ−i, τi) =∑z∈Z

Pr(σ−i,τi)(z)vi(z).

Escolha uma estratégia τi tal que ui(σ) < ui(σ−i, τi) e ||I ∈ Ii : τi(I) = σi(I)|| ≤ ||I ∈Ii : φi(I) = σi(I)|| para toda estratégia comportamental φi tal que ui(σ) < ui(σ−i, φi).

Seja I∗ um conjunto de informação para o jogador i tal que τi(I∗) = σi(I

∗) e para todoconjunto de informação I ∈ Ii tal que I contém somente histórias que possuem prefixos emI∗, τi(I∗) = σi(I

∗), ou seja, τi e σi coincidem nas histórias que se seguem ao conjunto deinformação I∗. Defina agora τ ∗i (I) = τi(I),∀I = I∗, e τ ∗i (I

∗) = σi(I∗). Iremos provar que

ui(σ) < ui(σ−i, τ∗i ), e como ||I ∈ Ii : τi(I) = σi(I)|| > ||I ∈ Ii : τ

∗i (I) = σi(I)||, temos

uma contradição.Denotaremos por (σ−i.I , τi(I)) o perfil de estratégias comportamentais que é igual a σ

exceto na ação do jogador i no conjunto de informação I; neste conjunto de informação Ia ação de i coincide com a ação escolhida por i em I de acordo com a estratégia τi. Sejaainda Z(I) o conjunto de histórias terminais que tem uma história em I como prefixo. Comoσi, τi, e τ ∗i coincidem em todas as histórias que se seguem ao conjunto de informação I∗,temos que EUi((σ−i, τ

∗i )|h) = EUi((σ−i.I∗ , τ

∗i (I

∗))|h),∀h ∈ I∗. Além disso, como τi e τ ∗i

Autor: Leandro Chaves Rêgo

Page 80: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 75

diferem apenas na ação escolhida em I∗, temos que Pr(σ−i,τ∗i )(h) = Pr(σ−i,τi)(h) para todo

h ∈ I∗ ∪ (Z − Z(I∗)). Portanto,

ui(σ−i, τ∗i ) =

∑h∈I∗

Pr(σ−i,τ∗i )(h)EUi((σ−i, τ

∗i )|h) +

∑z∈(Z−Z(I∗))

Pr(σ−i,τ∗i )(z)vi(z)

=∑h∈I∗

Pr(σ−i,τi)(h)EUi((σ−i.I∗ , τ∗i (I

∗))|h) +∑

z∈(Z−Z(I∗))

Pr(σ−i,τi)(z)vi(z)

Consideremos agora dois casos. Primeiro, se∑

h∈I∗ Pr(σ−i,τi)(h) = 0, neste caso temosentão que ui(σ−i, τ

∗i ) = ui(σ−i, τi) > ui(σ). Segundo, suponha que

∑h∈I∗ Pr(σ−i,τi)(h) > 0.

Como temos um jogo com memória perfeita, para qualquer estratégia ρ, temos que paraqualquer h ∈ I, onde I ∈ Ii,

Prρ(h)∑h∈I Prρ(h)

não depende da estratégia ρi do jogador i, pois ρi contribui com o mesmo fator multiplicativopara Prρ(h) qualquer que seja h ∈ I. Então, como (σ, µ) é um equilíbrio sequencial:

µ(I)(h) =Prσ(h)∑h∈I Prσ(h)

=Pr(σ−i,τi)(h)∑h∈I Pr(σ−i,τi)(h)

, ∀h ∈ I.

Logo,

ui(σ−i, τ∗i ) = (

∑h∈I∗

Pr(σ−i,τi)(h))(∑h∈I∗

µ(I∗)(h)EUi((σ−i.I∗ , τ∗i (I

∗))|h)) +∑

z∈(Z−Z(I∗))

Pr(σ−i,τi)(h)vi(z)

Como τ ∗i (I∗) = σi(I

∗) e σi é sequencialmente racional no conjunto de informação I∗,temos que∑

h∈I∗µ(I∗)(h)EUi(σ−i.I∗ , τ

∗i (I

∗)|h) ≥∑h∈I∗

µ(I∗)(h)EUi(σ−i.I∗ , τi(I∗)|h)

=∑h∈I∗

µ(I∗)(h)EUi(σ−i, τi|h).

Portanto,

ui(σ−i, τ∗i ) = (

∑h∈I∗

Pr(σ−i,τi)(h))(∑h∈I∗

µ(I∗)(h)EUi((σ−i.I∗ , τ∗i (I

∗))|h)) +∑

z∈(Z−Z(I∗))

Pr(σ−i,τi)(h)vi(z)

≥ (∑h∈I∗

Pr(σ−i,τi)(h))(∑h∈I∗

µ(I∗)(h)EUi((σ−i, τi)|h)) +∑

z∈(Z−Z(I∗))

Pr(σ−i,τi)(h)vi(z)

= ui(σ−i, τi) > ui(σ),

como queríamos demonstrar.

Teorema 4.3.21: Para todo jogo finito em forma extensiva com memória perfeita, o con-junto de avaliações que são equilíbrio sequencial é não vazio.

Autor: Leandro Chaves Rêgo

Page 81: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 76

Figura 4.10: Jogo em Forma Extensiva com Informação Imperfeita.

Prova: Veremos adiante.

Exemplo 4.3.22: Considere mais uma vez o jogo a seguir:Neste caso, em todos os equilíbrios sequenciais temos que o jogador 1 escolhe ação F com

probabilidade 1 após a história ⟨B,E⟩, escolhe ação H com probabilidade 1 após a história⟨C,E⟩, jogador 2 escolhe ação D com probabilidade 1 no conjunto de informação ⟨B⟩, ⟨C⟩,e o jogador 1 escolhe ação B com probabilidade 0 no início do jogo. Nos equilíbrios sequenciaisem que o jogador 1 escolhe ação C com probabilidade positivo temos que o sistema decrenças deve dá probabilidade 1 a história ⟨C⟩. No caso em que o jogador 1 escolhe A comprobabilidade 1, qualquer sistema de crenças é consistente.

Cálculo de Equilíbrio sequencial

Agora vamos ilustrar com um exemplo, como podemos calcular equilíbrios sequenciais emjogos finitos. O procedimento é similar ao que estudamos para o cálculo de equilíbrio de Nashem estratégias mistas para jogos em forma normal. Iremos por tentativa, encontrar equilí-brios sequenciais cujas estratégias comportamentais tenham determinando suporte. Faremosisso começando pelos conjuntos de informação mais perto dos nós terminais do jogo.

Exemplo 4.3.23: Considere o jogo a seguir:É fácil ver que µ(1.1)(⟨0, 95⟩) = 0, 95 e µ(1.1)(⟨0, 05⟩) = 0, 05. Além disso, racionali-

dade sequencial implica que σ2(2.2)(o) = 1. Vamos então considerar os possíveis suportesde σ1(1.2). Existem três suportes possíveis para considerar: ⟨m⟩, ⟨n⟩, ⟨m,n⟩. A utilidadeesperada para o jogador 1 de escolher n no conjunto de informação 1.2 é 8µ(1.2)(⟨0, 05, g⟩)+3(1−µ(1.2)(⟨0, 05, g⟩)), enquanto a utilidade esperada de escolher m é 4. Consistência entreµ e σ implica que:

µ(1.2)(⟨0, 05, g⟩) = 0, 05σ1(1.1)(g)

0, 05σ1(1.1)(g) + 0, 95σ1(1.1)(g)σ2(2.1)(h)=

1

1 + 19σ2(2.1)(h).

Note que mesmo que σ1(1.1)(g) = 0, consistência implica a mesma fórmula acima.

Autor: Leandro Chaves Rêgo

Page 82: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 77

Figura 4.11: Calculando Equilíbrios Sequenciais.

Vamos primeiro verificar se existe equilíbrio sequencial no qual σ1(1.2)(n) = 1. Então,racionalidade sequencial implica que 8µ(1.2)(⟨0, 05, g⟩)+3(1−µ(1.2)(⟨0, 05, g⟩)) ≥ 4, ou seja,µ(1.2)(⟨0, 05, g⟩) ≥ 0, 2. Isto por sua vez, implica que σ2(2.1)(h) ≤ 4

19. Mas se σ1(1.2)(n) = 1,

a utilidade esperada do jogador 2 de escolher h no conjunto de informação 2.1 é 9, enquantoa utilidade esperada de escolher i é 5. Portanto, σ2(2.1)(h) = 1, contradizendo a condiçãoσ2(2.1)(h) ≤ 4

19. Logo, não existe equilíbrio sequencial no qual σ1(1.2)(n) = 1.

Vamos tentar verificar se existe equilíbrio sequencial com σ1(1.2)(n) = 0. Então, raci-onalidade sequencial implica que 8µ(1.2)(⟨0, 05, g⟩) + 3(1 − µ(1.2)(⟨0, 05, g⟩)) ≤ 4, ou seja,µ(1.2)(⟨0, 05, g⟩) ≤ 0, 2. Isto por sua vez, implica que σ2(2.1)(h) ≥ 4

19. Mas se σ1(1.2)(n) = 0,

a utilidade esperada do jogador 2 de escolher h no conjunto de informação 2.1 é 4, enquantoa utilidade esperada de escolher i é 5. Portanto, σ2(2.1)(h) = 0, contradizendo a condiçãoσ2(2.1)(h) ≥ 4

19. Logo, não existe equilíbrio sequencial no qual σ1(1.2)(n) = 0.

Portanto, em qualquer equilíbrio sequencial devemos ter 0 < σ1(1.2)(n) < 1. Então,racionalidade sequencial implica que 8µ(1.2)(⟨0, 05, g⟩) + 3(1 − µ(1.2)(⟨0, 05, g⟩)) = 4, ouseja, µ(1.2)(⟨0, 05, g⟩) = 0, 2. Isto por sua vez, implica que σ2(2.1)(h) =

419

. Portanto, temosque o jogador 2 deve ser indiferente entre h e i no conjunto de informação 2.1. Mas neste caso,temos que a utilidade esperada do jogador 2 de escolher h no conjunto de informação 2.1 é9σ1(1.2)(n) + 4(1 − σ1(1.2)(n)), enquanto a utilidade esperada de escolher i é 5. Portanto,9σ1(1.2)(n) + 4(1− σ1(1.2)(n)) = 5, ou seja, σ1(1.2)(n) = 0, 2.

Resta-nos apenas determinar a estratégia do jogador 1 no conjunto de informação 1.1.Se ele escolher f , ele tem utilidade esperada 0, enquanto se ele escolher g, ele tem utilidadeesperada

0, 95(−1(15/19) + 4(4/19)0, 8 + 3(4/19)0, 2) + 0, 05(4(0, 8) + 8(0, 2)) = 0, 25

Portanto, σ1(1.1)(g) = 1.Observe que se tivéssemos um jogo onde o jogador chance só tivesse a opção de escolher

a alternativa superior, então no único equilíbrio sequencial do jogo, os jogadores escolheriamf , i, m, o, com probabilidade 1. Este exemplo, serve para ilustrar o importante papel quepequenas incertezas no jogo podem gerar no equilíbrio.

Autor: Leandro Chaves Rêgo

Page 83: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

4.3. JOGOS COM INFORMAÇÃO IMPERFEITA 78

Ao longo deste capítulo, vimos alguns refinamentos de equilíbrios de Nash para jogosem forma extensa. No próximo capítulo, analisaremos refinamentos de equilíbrio de Nashtambém para jogos em forma normal.

Autor: Leandro Chaves Rêgo

Page 84: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 5

Refinamentos de Equilíbrio de Nash paraJogos em Forma Normal

5.1 IntroduçãoNeste capítulo, estudaremos alguns exemplos de refinamentos de equilíbrio de Nash parajogos em forma normal. Existem algumas propriedades que desejamos que tais refinamentossatisfaçam.

• O conceito de solução deve ser satisfeito por pelo menos um perfil de estratégias emtodo jogo finito.

• Quando existe alguma razão para não considerar um equilíbrio de Nash plausível, orefinamento deve eliminá-lo. Por exemplo, equilíbrios onde jogadores escolham estra-tégias dominadas com probabilidade positiva.

• Em jogos extensivos, um equilíbrio que não possa ser extendido por algum sistema decrenças para um equilíbrio seqüencial deve ser eliminado. Portanto, para refinamentosde equilíbrio para jogos em forma normal, o conceito de solução deve apenas selecio-nar equilíbrios que correspondam a equilíbrios seqüenciais de todos os jogos de formaextensa que possam ser representados pelo dado jogo em forma normal.

Veremos a seguir um primeiro refinamento conhecido como equilíbrio perfeito de mãotrêmula.

5.2 Equilíbrio Perfeito de Mão TrêmulaUm dado perfil de estratégias mistas para um jogo em forma normal finito é dito ser com-pletamente misto se toda ação do jogo é escolhida com probabilidade estritamente positiva.

Definição 5.2.1: Um equilíbrio perfeito de mão trêmula de um jogo finito em forma normalé um perfil de estratégias mistas σ com a propriedade que existe uma seqüência (σk)∞k=0 deperfis de estratégia completamente mistos que convergem pontualmente para σ de tal forma

79

Page 85: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.2. EQUILÍBRIO PERFEITO DE MÃO TRÊMULA 80

que para todo jogador i a estratégia σi é uma melhor resposta para σk−i para todos os valores

de k.

Como para todo jogador a utilidade esperada é contínua no vetor de estratégias dosoutros jogadores, temos que σi é também uma melhor resposta para σ−i, e portanto, todoequilíbrio perfeito de mão trêmula também é um equilíbrio de Nash. O próximo exemplodemonstra que a recíproca desta afirmação não é verdadeira.

Exemplo 5.2.2:

A B CA 0,0 0,0 0,0B 0,0 1,1 2,0C 0,0 0,2 2,2

Este jogo tem três equilíbrios de Nash (A,A), (B,B), (C,C), mas apenas (B,B) é umequilíbrio perfeito de mão trêmula.

Note que em um equilíbrio de mão trêmula, a estratégia dos jogadores continua sendouma melhor resposta para estratégias dos demais jogadores que são pequenos desvios dasestratégias de equilíbrio. Por este motivo, temos que equilíbrio perfeito de mão trêmulaé robusto a pequenos erros que possam ser realizados pelos jogadores enquanto tentamimplementar suas estratégias de equilíbrio. O próximo teorema relaciona equilíbrio seqüencialcom equilíbrio perfeito de mão trêmula da representação multiagente de um jogo em formaextensa.

Teorema 5.2.3: Suponha que Γ é um jogo em forma extensiva finito com memória perfeitae que σ é um equilíbrio perfeito de mão trêmula da representação multiagente de Γ em formanormal. Então, existe um sistema de crenças µ tal que (σ, µ) é um equilíbrio seqüencial deΓ.

Prova: Seja (σk)∞k=0 a seqüência de perfis de estratégia completamente mistos tal que σk

converge para σ e para todo conjunto de informação I do jogador i, σI é uma melhor respostapara σk

−I para todo k. Para todo h ∈ I, defina

πk(I)(h) =Prσk(h)∑h∈I Prσk(h)

.

Como σk é completamente mista, temos que Prσk(h) > 0,∀h ∈ H. Como πk pode servisto como um vetor de dimensão finita cujas componentes estão entre 0 e 1, temos queesta seqüência está definida em um espaço compacto e, portanto, tem uma subseqüênciaconvergente. Seja µk a subseqüência convergente de πk e µ o limite de µk. Seja ainda τ k asubseqüência de σk correspondente a subseqüência µk.

Por construção, temos que (σ, µ) é consistente. Queremos provar que esta avaliação éseqüencialmente racional. Lembre que para todo I ∈ Ii, denotamos por uI(·) a utilidade

Autor: Leandro Chaves Rêgo

Page 86: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.2. EQUILÍBRIO PERFEITO DE MÃO TRÊMULA 81

esperada do agente I do jogador i. Temos que quando o agente i usa estratégia ρ(I) em Icom as demais estratégias como especificado em τ k, uI é dado por

uI(τk−I , ρ(I)) =

∑h∈I

Pr(τk−I ,ρ(I))(h)Eui((τ

k−I , ρ(I))|h) +

∑z∈(Z−Z(I))

Pr(τk−I ,ρ(I))(z)vi(z)

=∑h∈I

Prτk(h)Eui((τk−I , ρ(I))|h) +

∑z∈(Z−Z(I))

Prτk(z)vi(z)

tendo em vista que Pr(τk−I ,ρ(I))(h) = Prτk(h),∀h ∈ I ∪ (Z −Z(I)), pois estas probabilidades

não dependem da escolha do jogador i em I. Logo,

uI(τk−I , ρ(I)) = (

∑h′∈I

Prτk(h′))(

∑h∈I

µk(I)(h)Eui((τk−I , ρ(I))|h)) +

∑z∈(Z−Z(I))

Prτk(z)vi(z)

Como τ k é uma subseqüência de σk, temos que σI é uma melhor resposta para τ k−I ,e portanto maximiza também

∑h∈I µ

k(I)(h)Eui((τk−I , ρ(I))|h) por uma escolha de ρ(I).

Fazendo k → ∞ pela continuidade da utilidade esperada, temos que

σI ∈ argmaxρ(I)

∑h∈I

µ(I)(h)Eui((σ−I , ρ(I))|h),

ou seja, (σ, µ) é seqüencialmente racional.

Resta-nos provar que o conjunto de equilíbrios perfeitos de mão trêmula não é vazio paratodo jogo finito.

Teorema 5.2.4: Para todo jogo finito em forma estratégica existe pelo menos um equilíbrioperfeito de mão trêmula.

Prova: Seja Γ = (N, Ci : i ∈ N, ui : i ∈ N) qualquer jogo finito em forma normal.Seja λ qualquer perfil de estratégias completamente misto, por exemplo, faça λi = 1

||Ci|| .Para qualquer número k tal que k ≥ 1, definimos uma função δk que associa cada perfil deestratégias misto (σ) a um perfil de estratégias completamente misto, da seguinte maneira:

δk(σ) = (1− 1

k)σ +

1

kλ.

Para qualquer, perfil de estratégias puras c, seja uki (c) = ui(δ

k([c])). Defina Γk = (N, Ci :i ∈ N, uk

i : i ∈ N). Note que Γk é um jogo em forma normal finito, portanto possuipelo menos um equilíbrio de Nash em estratégias mistas. Seja σk um equilíbrio de Nashde Γk. Como o jogo é finito podemos escolher uma subseqüência de σk que satisfaz asseguintes condições: (1) para todo jogador i o mesmo conjunto de estratégias puras têmprobabilidade zero de acordo com todos os k’s, e (2) a subseqüência é convergente. Chamemosesta subseqüência de σk. Defina σ = limk σ

k e τ k = δk(σk). Então, τ k é completamente mistoe limk τ

k = limk σk = σ. Além disso, como ∀di ∈ Ci

uki (σ

k−i, [di]) = ui(τ

k−i, δ

k([di]))

= (1− 1

k)ui(τ

k−i, [di]) +

1

kui(τ

k−i, λi),

Autor: Leandro Chaves Rêgo

Page 87: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.2. EQUILÍBRIO PERFEITO DE MÃO TRÊMULA 82

temos que argmaxdi∈Ciuki (σ

k−i, [di]) = argmaxdi∈Ciui(τ

k−i, [di]). Portanto, para qualquer ci ∈

Ci, seci /∈ argmaxdi∈Ciu

ki (σ

k−i, [di]) = argmaxdi∈Ciui(τ

k−i, [di]),

então σki (ci) = 0. Logo, σi(ci) = 0. Então, temos que se ci /∈ argmaxdi∈Ciui(τ

k−i, [di]), então

σi(ci) = 0, o que por sua vez implica que

σi ∈ argmaxτi∈∆(Ci)ui(τk−i, τi).

Então, σ satisfaz as condições de um equilíbrio perfeito de mão trêmula.

Observação 5.2.5: Note que os Teoremas 5.2.3 e 5.2.4 implicam que o conjunto de equi-líbrios seqüências de um jogo em forma extensiva finito com memória perfeita é não vazio.

Existe uma outra caracterização possível para a definição de equilíbrio perfeito de mãotrêmula que é baseada no conceito de equilíbrio ϵ-perfeito. Um perfil de estratégias misto σé um ϵ-equilíbrio perfeito se σ for completamente misto e para todo i ∈ N e todo estratégiapura ci ∈ Ci, se ci /∈ argmaxei∈Ciui(σ−i, [ei]), então σi(ci) < ϵ. O próximo teorema trata darelação entre equilíbrio perfeito de mão trêmula e ϵ-equilíbrio perfeito.

Teorema 5.2.6: σ é um equilíbrio perfeito de mão trêmula de Γ se, e somente se, existeuma seqüência (ϵk, σ

k) tal quelimk

ϵk = 0, limk

σk = σ,

e para todo k, σk é um ϵk-equilíbrio perfeito.

Prova: Suponha que (ϵk, σk) é uma seqüência tal que

limk

ϵk = 0, limk

σk = σ,

e para todo k, σk é um ϵk-equilíbrio perfeito.Como existe apenas um número finito de subconjuntos de Ci, podemos escolher uma

subseqüência τ k de σk tal que argmaxei∈Ciui(τk−i, [ei]) = argmaxei∈Ciui(τ

j−i, [ei]) para todo

j, k. Para verificar que σ é um equilíbrio perfeito de mão trêmula, basta verificar que seci /∈ argmaxei∈Ciui(τ

k−i, [ei]), então σi(ci) = 0. Assuma que ci /∈ argmaxei∈Ciui(τ

k−i, [ei])

para algum k. Por construção de (τ k), temos que ci /∈ argmaxei∈Ciui(τk−i, [ei]) para todo k.

Portanto, τ ki (ci) < ϵk,∀k. Logo,

σi(ci) = limk

τ ki (ci) ≤ limk

ϵk = 0.

Para a recíproca, suponha agora que σ é um equilíbrio perfeito de mão trêmula. Então,existe σk completamente misto tal que se σi(ci) > 0, então ci ∈ argmaxei∈Ciui(σ

k−i, [ei]),∀k,

e limk σk = σ. Escolha uma subseqüência τ k de σk tal que argmaxei∈Ciui(τ

k−i, [ei]) =

argmaxei∈Ciui(τj−i, [ei]) para todo j, k. Suponha que ci /∈ argmaxei∈Ciui(τ

k−i, [ei]), então

σi(ci) = 0. Como limk τk = σ, temos que para todo j, existe Nj tal que para todo n ≥ Nj,

τni (ci) <1j. Como argmaxei∈Ciui(τ

k−i, [ei]) = argmaxei∈Ciui(τ

j−i, [ei]) para todo j, k, segue que

se ci /∈ argmaxei∈Ciui(τNj

−i , [ei]), então τNj

i (ci) <1j, ∀j, ou seja, τNj é um 1

j-equilíbrio perfeito

para todo j.

Autor: Leandro Chaves Rêgo

Page 88: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.3. EQUILÍBRIO PRÓPRIO 83

5.3 Equilíbrio PróprioEquilíbrio próprio é um refinamento de equilíbrio perfeito de mão trêmula. Como vimos noTeorema 5.2.6, um equilíbrio perfeito de mão trêmula pode ser aproximado por um perfilde estratégias completamente misto, mas que satisfaz a condição que qualquer estratégiapura que não seja uma melhor resposta é escolhida com uma probabilidade arbitrariamentepequena. Um equilíbrio próprio também pode ser aproximado por um perfil de estratégiascompletamente misto, mas que satisfaz a condição de que qualquer estratégia que não for umamelhor resposta é escolhida com uma probabilidade significativamente menor que qualqueroutra estratégia que tenha uma utilidade esperada melhor que a sua. Formalmente, diz-seque um perfil de estratégias σ é um ϵ-equilíbrio próprio se σ for completamente misto e paratodo i ∈ N , se para quaisquer ci, ei ∈ Ci, se ui(σ−i, [ci]) < ui(σ−i, [ei]), então σi(ci) ≤ ϵσi(ei).

Definição 5.3.1: Um perfil de estratégias σ é um equilíbrio proprio se existe uma seqüência(ϵk, σ

k) tal quelimk

ϵk = 0, limk

σk = σ,

e para todo k, σk é um ϵk-equilíbrio próprio.

É fácil verificar que todo equilíbrio próprio também é um equilíbrio perfeito de mãotrêmula (Exercício). O próximo teorema mostra que todo jogo finito em forma normal temum equilíbrio próprio.

Teorema 5.3.2: Para qualquer jogo finito em forma normal, o conjunto de equilíbrios pró-prios é não vazio.

Prova: Dado um jogo finito em forma normal Γ = (N, (Ci)i∈N , (ui)i∈N), para cada númeropositivo ϵ menor que 1, seja Γϵ um jogo com o mesmo conjunto de jogadores, onde asestratégias puras do jogador i são todas as maneiras possíveis de ordenar as estratégiasde Ci, ou seja, existem ||Ci||! estratégias do jogador i neste jogo. A utilidade esperada uϵ

dos perfis de estratégia de Γϵ são determinadas da seguinte maneira. Após os jogadoresescolherem suas estratégias em Γϵ, uma estratégia pura em Ci para cada jogador é escolhidade acordo com uma distribuição de probabilidade na qual a primeira estratégia de Ci deacordo com a ordem escolhida por i tem a maior probabilidade e cada uma das estratégiaspuras subseqüentes de acordo com a ordem tem probabilidade ϵ vezes a probabilidade daestratégia imediatamente anterior na ordem. A utilidade esperada de um jogador em Γϵ édeterminada pela utilidade esperada em Γ quando as estratégias puras são selecionadas domodo acima.

Como Γϵ é finito, podemos encontrar um equilíbrio de Nash deste jogo para todo ϵ. Sejaτ ϵ um equilíbrio de Nash em estratégias mistas de Γϵ. Seja σϵ um perfil de estratégias mistode Γ tal que, σϵ

i (ci) é a probabilidade com que ci é escolhido de acordo com o procedimentodo parágrafo anterior quando i joga τ ϵi .

Vamos provar que σϵ é um ϵ-equilíbrio próprio de Γ. Suponha que ui(σϵ−i, [ci]) < ui(σ

ϵ−i, [ei]).

Então, dado que os jogadores diferentes de i seguem as estratégias em σϵ−i, temos que para

quaisquer estratégias βi e γi de i que só diferem nas probabilidades com que ci e ei são

Autor: Leandro Chaves Rêgo

Page 89: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.3. EQUILÍBRIO PRÓPRIO 84

escolhidos, vale ui(σϵ−i, βi) < ui(σ

ϵ−i, γi) se γi(ei) > βi(ei). Portanto, se τ ′i e τ ′′i são duas es-

tratégias puras para i em Γϵ, temos que uϵi(τ

ϵ−i, [τ

′i ]) < uϵ

i(τϵ−i, [τ

′′i ]), se τ ′i e τ ′′i diferem apenas

na posição de ci e ei na ordenação das estratégias puras, e na ordenação segundo τ ′′i ei vemantes de ci. Logo, como τ ϵ é um equilíbrio de Nash de Γϵ, τ ϵi só dá probabilidade positiva aordens em que ei vem antes de ci. Portanto, σϵ

i (ci) < ϵσϵi (ei), ou seja, σϵ é um ϵ-equilíbrio

próprio de Γ.Como ×i∈N∆(Ci) é compacto, podemos encontrar uma subseqüência σϵk que converge

para σ e limk ϵk = 0. Portanto, σ é um equilíbrio próprio de Γ.

Vamos ilustrar com um exemplo o fato que nem todo equilíbrio perfeito de mão trêmulaé um equilíbrio próprio.

Exemplo 5.3.3: Considere o jogo a seguir:

x2 y2a1x1 4,4 4,4a1y1 4,4 4,4b1x1 6,6 3,0b1y1 0,0 2,2

Nosso objetivo é mostrar que ([a1x1], [y2]) é um equilíbrio perfeito de mão trêmula destejogo que não é equilíbrio próprio. Para provar que é um equilíbrio perfeito de mão trêmula,considere o seguinte perfil de estratégias

σϵ = ((1− ϵ)[a1x1] + 0,1ϵ[a1y1] + 0,1ϵ[b1x1] + 0,8ϵ[b1y1], ϵ[x2] + (1− ϵ)[y2]).

σϵ é um ϵ′-equilíbrio perfeito para qualquer ϵ < ϵ′ < 1/3, pois note que u1(a1x1, σϵ2) =

u1(a1y1, σϵ2) = 4, u1(b1x1, σ

ϵ2) = 6ϵ+ (1− ϵ)3 < 4, u1(b1y1, σ

ϵ2) = 2(1− ϵ) < 2. Então, temos

que b1x1 e b1y1 não são melhores respostas, então para que σϵ seja um ϵ′-equilíbrio perfeitoprecisamos ter σϵ

1(b1x1) < ϵ′ e σϵ1(b1y1) < ϵ′, que é satisfeito neste exemplo. Também note

que u2(σϵ1, x2) = 4(1−ϵ)+4(0,1ϵ)+6(0,1ϵ) = 4−3ϵ e u2(σ

ϵ1, y2) = 4(1−ϵ)+4(0,1ϵ)+2(0,8ϵ) =

4 − 2ϵ. Então, x2 não é melhor resposta, então precisamos ter σϵ2(x2) < ϵ′, que é satisfeito

neste exemplo. Então, ([a1x1], [y2]) é um equilíbrio perfeito de mão trêmula deste jogo.Contudo, σϵ não é um ϵ′-equilíbrio próprio para nenhum ϵ′ < 1. A estratégia b1x1 é

pior para o jogador 1 que a estratégia a1y1 contra a estratégia σϵ2, porém elas são escolhidas

com a mesma probabilidade. Na verdade, temos que b1x1 é melhor para o jogador 1 quea estratégia b1y1 contra qualquer estratégia τ2. Portanto, em qualquer ϵ-equilíbrio próprio,ϵ < 1, devemos ter que a probabilidade de b1x1 deve ser maior que a probabilidade deb1y1, conseqüentemente, x2 é uma melhor resposta em qualquer ϵ-equilíbrio próprio. Então,σ2(x2) = 1 em qualquer equilíbrio próprio. Portanto, σ1(b1x1) = 1 em qualquer equilíbriopróprio. Portanto, o único equilíbrio próprio deste jogo é (b1x1, x2). Note que podemosjustificar este equilíbrio com a seguinte seqüência de ϵ-equilíbrios próprios:

((1− ϵ− 0,5ϵ2)[b1x1] + 0,5ϵ2[b1y1] + 0,5ϵ[a1x1] + 0,5ϵ[a1y1], (1− 0,5ϵ)[x2] + 0,5ϵ[y2]).

Autor: Leandro Chaves Rêgo

Page 90: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

5.3. EQUILÍBRIO PRÓPRIO 85

A seguir enunciamos um teorema que prova que existe uma relação entre equilíbriossequenciais de um jogo em forma extensiva com equilíbrios próprios da representação emforma normal do jogo em forma extensiva.

Teorema 5.3.4: Suponha que Γ é um jogo finito em forma extensiva com memória perfeitae que τ é um equilíbrio próprio da representação em forma normal de Γ. Então, existeum sistema de crenças µ e uma perfil de estratégias comportamentais σ tal que (σ, µ) é umequilíbrio seqüencial de Γ e σ é uma representação comportamental de τ .

Prova: Omitida. Consultar prova do Teorema 5.4 em Myerson.

Infelizmente, não existem argumentos que possam provar que jogadores racionais nãopossam escolher equilíbros de Nash que não são próprios, nem podemos provar que todoequilíbrio próprio deve ser considerado como uma maneira razoável de se comportar em umjogo. A razão por que é importante considerar refinamentos de equilíbrio de Nash baseadosem análise de sensibilidade a pequenas probabilidades de erros, como nos refinamentos deequilíbrio perfeito de mão trêmula e equilíbrio próprio, é que estes conceitos proporcionamuma maneira de checar se a justificativa para um determinado equilíbrio não depende nasuposição de que jogadores ignoram completamente os possíveis resultados do jogo que têmprobabilidade zero em equilíbrio. Deste modo, podemos argumentar que testar estes (eoutros refinamentos contidos na literatura) é uma maneira útil de formalizar parte de nossaintuição como jogadores racionais devem se comportar em jogos.

Autor: Leandro Chaves Rêgo

Page 91: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 6

Jogos Bayesianos

6.1 IntroduçãoJogos Bayesianos são jogos nos quais, no começo do jogo, antes dos jogadores começarem aplanejar suas ações no jogo, alguns jogadores podem já possuir alguma informação privadasobre o jogo que os demais jogadores não sabem. Então freqüentemente, queremos analisarsituações nas quais os jogadores atualmente têm diferentes informações privadas que elespossuem a um longo tempo, e não é natural definir o início do jogo como sendo algum pontoem um distante passado antes dos jogadores lerem suas informações privadas. Além disso,algumas informações podem ser tão básicas para a identidade de um jogador (por exemplo,sexo, língua materna, nível de aversão ao risco) que não faz sentido discutir sobre jogadoresplanejando suas ações antes de obterem estas informações. Estas informações privadas queos jogadores possuem no início do jogo antes de planejar suas ações definem os chamadostipos dos jogadores.

6.2 DefiniçãoJogos Bayesianos são uma generalização de jogos em forma normal que proporcionam umamaneira de representar jogos onde os jogadores já começam a planejar suas ações com infor-mações privadas que definem diversos tipos dos jogadores.

Definição 6.2.1: Um jogo bayesiano é um vetor Γb = (N, Ci : i ∈ N, Ti : i ∈ N, pi :i ∈ N, ui : i ∈ N), onde

• N é o conjunto de jogadores;

• Ci é o conjunto de ações disponíveis para o jogador i;

• Ti é o conjunto de possíveis tipos do jogador i. Note que apesar de no início do jogocada jogador saber seu tipo (pois cada sabe a sua informação privada), precisamos deum conjunto de tipos para cada jogador para descrever a incerteza que os jogadorestêm sobre os tipos dos demais jogadores.

86

Page 92: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

6.2. DEFINIÇÃO 87

• pi : Ti → ∆(T−i), ou seja, pi associa cada tipo do jogador i com uma distribuição deprobabilidade sobre os tipos dos demais jogadores, descrevendo portanto a incertezade cada tipo do jogador i sobre os tipos dos demais jogadores. Portanto, pi(t−i|ti)denota a probabilidade subjetiva que o tipo ti do jogador i associa ao evento que t−i éo verdadeiro perfil de tipos dos demais jogadores.

• ui : C × T → IR, ou seja, para cada perfil de estratégias c ∈ C e perfil de tipos t ∈ T ,a função ui especifica um número ui(c, t) que representa a utilidade do jogador i se ostipos dos jogadores forem t e eles escolherem as estratégias em c.

Γb é finito se, e somente se, os conjuntos N, Ci, e Ti para todo i ∈ N forem finitos.

Exemplo 6.2.2: Considere um jogo onde o jogador 1 é o vendedor de um objeto e o jogador2 é o único potencial comprador deste objeto. Cada jogador sabe quanto o objeto vale para simesmo, mas acredita que o valor do objeto para o outro jogador pode em reais ser qualquernúmero inteiro entre 1 e 100 reais, cada um com igual probabilidade. Neste jogo cadajogador deve simultaneamente fazer uma oferta em reais entre 0 e 100 para negociar o objeto.Se a oferta do comprador for maior ou igual a oferta do vendedor, então eles negociam oobjeto pelo valor que é igual a média entre as ofertas, em caso contrário nenhuma transaçãoé realizada. Assuma que os jogadores maximizam o lucro esperado. Este jogo pode sermodelado como um jogo bayesiano da seguinte maneira: N = 1, 2, Ti = 1, 2, . . . , 100para todo i, Ci = 0, 1, . . . , 100 para todo i. As funções de probabilidade são:

pi(t−i|ti) =1

100,∀i ∈ N, ∀ti ∈ Ti,∀t−i ∈ T−i.

As utilidades são dadas por:

u1(c, t) = (c1 + c2)/2− t1 se c2 ≥ c1

u2(c, t) = t2 − (c1 + c2)/2 se c2 ≥ c1

u1(c, t) = 0 = u2(c, t) se c2 < c1

Dizemos que as crenças dos jogadores descritas pelas funções pi em um jogo bayesianosão consistentes com uma distribuição a priori se, e somente se, existe alguma distribuiçãoa priori comum sobre o conjunto de perfis de tipos T = ×i∈NTi tal que a crença de cadajogador dado o seu tipo é apenas a distribuição condicional de probabilidade que pode sercomputada de acordo com a fórmula de Bayes. Por exemplo, no caso finito, crenças sãoconsistentes se, e somente se, existe alguma distribuição de probabilidade P ∈ ∆(T ) tal que

pi(t−i|ti) =P (t)∑

s−i∈T−iP (s−i, ti)

,∀t ∈ T, ∀i ∈ N.

Autor: Leandro Chaves Rêgo

Page 93: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

6.2. DEFINIÇÃO 88

Note que no Exemplo 6.2.2, as crenças são consistentes com a distribuição a priori

P (t) =1

10000, ∀t ∈ T.

A maioria jogos da literatura em jogos bayesianos assume que crenças são consistentescom uma distribuição a priori. Esta tendência se deve ao fato que tais modelos de jogossão mais simples. Note que quando definimos jogos em forma extensiva também assumimosque todos os jogadores descrevem as ações do jogador chance com a mesma distribuição deprobabilidade, porém é fácil generalizar esta definição retirando esta suposição. Note queé possível se imaginar jogos com crenças inconsistentes com uma distribuição a priori. Porexemplo, em um jogo esportivo, se for conhecimento comum entre os técnicos que cada umacredita que seu próprio time tem probabilidade 2/3 de vitória no próximo jogo entre ostimes, então estas crenças não podem ser consistentes com uma distribuição a priori. Seas crenças forem consistentes, pode acontecer que cada técnico acredite que seu time tenhaprobabilidade 2/3 de vitória, mas esta diferença entre as crenças não pode ser conhecimentocomum entre os técnicos. No próximo capítulo quando estudarmos formalmente conheci-mento e conhecimento comum provaremos este resultado.

6.2.1 Estratégias

Quando analisamos jogos bayesianos, assumimos que cada jogador i sabe a estrutura inteirado jogo e seu tipo e que este fato é conhecimento comum entre todos jogadores. Portanto,uma estratégia para o jogador i deve não só especificar uma ação para o seu verdadeiro tipo,mas também uma ação para todos os demais tipos, pois os demais jogadores ao escolheremsuas ações levam em consideração as ações escolhidas por esses outros tipos. Logo, umaestratégia pura para o jogador i em um jogo bayesiano é uma função que associa a cada tipodo jogador i uma ação em Ci. Uma estratégia mista para o jogador i em um jogo bayesianoé uma função que associa a cada tipo do jogador i uma distribuição de probabilidade em Ci.

6.2.2 Representação em Forma Normal

Podemos representar qualquer jogo bayesiano por um jogo em forma normal. Esta represen-tação é conhecida como representação tipo-agente. Nesta representação existe um jogadorpara cada tipo de jogador do jogo bayesiano. Formalmente, assumindo sem perda de gene-ralidade que Ti ∩ Tj = ∅ se i = j, dada um jogo bayesiano Γb, o conjunto de jogadores darepresentação tipo-agente é igual a T ∗ = ∪i∈NTi. Para cada ti ∈ Ti, o conjunto de açõesdisponíveis para este jogador na representação tipo agente é Dt = Ci. Finalmente, na re-presentação tipo agente, a utilidade para qualquer jogador t ∈ Ti é definida como sendoigual a utilidade esperada condicional para o jogador i em Γb quando ti é o verdadeiro tipo.Portanto, para todo i ∈ N e ti ∈ Ti, a função utilidade vti : ×s∈T ∗Ds → IR na representaçãotipo agente de forma que para todo perfil de estratégias d ∈ ×s∈T ∗Ds,

vti(d) =∑

t−i∈T−i

pi(t−i|ti)ui(dt, t).

Autor: Leandro Chaves Rêgo

Page 94: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

6.2. DEFINIÇÃO 89

Exemplo 6.2.3: A representação tipo-agente do jogo do Exemplo 6.2.2 é dada por: T ∗ =i.t : i ∈ 1, 2, t ∈ 1, 2, . . . , 100, Di.t = 0, 1, . . . , 100,

v1.t(d) =1

100

100∑s=1

u1((d1.t, d2.s), (t, s)),

e

v2.t(d) =1

100

100∑s=1

u2((d1.s, d2.t), (s, t)).

6.2.3 Equilíbrio Bayesiano

Para um jogo bayesiano, define-se um equilíbrio Bayesiano como sendo um equilíbrio de Nashda representação tipo-agente do jogo bayesiano em forma normal. Portanto, um equilíbriobayesiano especifica uma ação pura ou uma distribuição de probabilidades sobre as açõespara cada tipo de cada jogador de forma que cada um desses tipos maximiza sua utilidadeesperada quando ele sabe o seu tipo mas não sabe o tipo dos demais jogadores. Note queem um equilíbrio bayesiano, a estratégia de um jogador depende apenas do seu tipo mas nãodos tipos dos outros jogadores. Conforme explicamos, uma estratégia deve especificar umaação para cada tipo de jogador não apenas para o verdadeiro tipo, pois caso contrário nãopoderíamos determinar a utilidade esperada dos outros jogadores que não sabem qual é overdadeiro tipo dos demais.

Formalmente, um equilíbrio bayesiano em estratégias mistas de um jogo bayesiano Γb équalquer perfil de estratégias σ ∈ ×i∈N ×ti∈Ti

∆(Ci) tal que para todo i ∈ N e ti ∈ Ti,

σi(·|ti) ∈ argmaxτi∈∆(Ci)

∑t−i∈T−i

pi(t−i|ti)∑c∈C

(∏

j∈N−i

σj(cj|tj))τi(ci)ui(c, t),

onde σj(cj|tj) é a probabilidade com que o tipo tj do jogador j escolhe ação cj.

Exemplo 6.2.4 : Considere um jogo bayesiano com dois jogadores, suponha que C1 =x1, y1, C2 = x2, y2, T1 = 1, T2 = 2.1, 2.2, p1(2.1|1) = 0,6, e as utilidades sãodadas nas tabelas a seguir:

Para o tipo 2.1:

x2 y2x1 1,2 0,1y1 0,4 1,3

Para o tipo 2.2:

x2 y2x1 1,3 0,4y1 0,1 1,2

Autor: Leandro Chaves Rêgo

Page 95: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

6.2. DEFINIÇÃO 90

Neste jogo, y2 é uma estratégia fortemente dominada para o tipo 2.1 e x2 é fortementedominada para o tipo 2.2, então 2.1 deve escolher x2 e 2.2 deve escolher y2. Portanto, para otipo 1, temos que a utilidade esperada de x1 é 0,6 e a utilidade esperada de y1 é 0,4. Portanto,o único equilíbrio bayesiano deste jogo é: σ1(x1|1) = 1, σ2(x2|2.1) = 1, e σ2(y2|2.2) = 1.

Exemplo 6.2.5: Considere o seguinte jogo Bayesiano no qual o jogador 1 pode ter tipo αou β, onde segundo o único tipo do jogador 2, jogador 1 é do tipo α com probabilidade 0,9.As utilidades dos jogadores são dadas de acordo com o as tabelas a seguir:

Para o tipo α:

x2 y2x1 2,2 -2,0y1 0,-2 0,0

Para o tipo β:

x2 y2x1 0,2 1,0y1 1,-2 2,0

Note que existem três equilíbrios Bayesianos neste jogo: (1) σ2(x2) = 1, σ1(x1|α) = 1, eσ1(y1|β) = 1; (2) σ2(y2) = 1, σ1(y1|α) = 1, e σ1(y1|β) = 1; e (3) σ2(x2) = 1/2, σ1(x1|α) =5/9, e σ1(y1|β) = 1.

Exemplo 6.2.6: Suponha que duas pessoas estão envolvidas em uma disputa. Pessoa 1 nãosabe se a pessoa 2 é forte ou fraca; ela associa probabilidade α a pessoa 2 ser forte. Pessoa 2está perfeitamente informada. Cada pessoa pode lutar ou se entregar. Cada pessoa recebeuma utilidade 0 se ela se entregar não importa o que a outra pessoa faça. Além disso, cadapessoa recebe uma utilidade 1 se ela lutar e seu adversário se entregar. Se ambas pessoaslutarem, então suas utilidades são (−1; 1) se a pessoa 2 for forte e (1;−1) se a pessoa 2 forfraca. Formule esta situação como um jogo Bayesiano e encontre os equilíbrios bayesianosse α < 1

2e se α > 1

2.

Solução: O jogo Bayesiano é: N = 1, 2; Ci = L,E, i ∈ N ; T1 = 1; T2 = Ft, Fr;p(Ft|1) = α; e as utilidades são dadas por:

• se o jogador 2 for forte:

L EL -1,1 1,0E 0,1 0,0

• se o jogador 2 for fraco:

L EL 1,-1 1,0E 0,1 0,0

Autor: Leandro Chaves Rêgo

Page 96: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

6.2. DEFINIÇÃO 91

Seja σ1(L), σ2(L|Ft), e σ2(L|Fr) o perfil de estratégias misto. Então, a utilidade esperadado jogador 2 forte de lutar é 1, e de se entregar é 0. Logo, este tipo do jogador 2 sempreluta, isto é em qualquer equilíbrio Bayesiano σ2(L|Ft) = 1. A utilidade esperada do jogador2 fraco de lutar é

−σ1(L) + (1− σ1(L)),

e de se entregar é 0. Portanto, ele irá lutar se σ1(L) < 12; se entregar se σ1(L) > 1

2; e é

indiferente se σ1(L) =12. A utilidade esperada do jogador 1 de lutar é

α[σ2(L|Ft)× (−1) + (1− σ2(L|Ft))] + (1− α) = 1− 2ασ2(L|Ft),

e de se entregar é 0. Portanto, ele irá lutar se ασ2(L|Ft) < 12; se entregar se ασ2(L|Ft) > 1

2;

e está indiferente se ασ2(L|Ft) = 12. Como já vimos que em todo equilíbrio Bayesiano

σ2(L|Ft) = 1, então o jogador 1 irá lutar se α < 12, e se entregar se α > 1

2. Logo, se α < 1

2;

então o único equilíbrio bayesiano é dado por σ1(L) = 1; σ2(L|Ft) = 1; e σ2(L|Fr) = 0.Se α > 1

2; então o único equilíbrio bayesiano é dado por σ1(L) = 0; σ2(L|Ft) = 1; e

σ2(L|Fr) = 1.

Em um problema de decisão ter mais informação nunca é prejudicial, pois o tomadorde decisão pode sempre ignorar a informação recebida. Em um jogo, is to nem sempre éverdade. Se um jogador possui mais informação e os outros jogadores souberem disso, entãoo jogador pode estar numa situação pior como mostra o seguinte exemplo.

Exemplo 6.2.7: Considere que ambos jogadores consideram igualmente prováveis que estãoparticipando dos seguintes jogos, onde 0 < ϵ < 1

2:

L M RT 1,2ϵ 1,0 1,3ϵB 2,2 0,0 0,3

ou

L M RT 1,2ϵ 1,3ϵ 1,0B 2,2 0,3 0,0

Então, a estratégia L é estritamente dominante para o jogador 2, pois se 1 escolher T , Lterá uma utilidade esperada de 2ϵ enquanto M e R terão utilidade esperada 3

2ϵ, e se 1 escolher

B, L terá utilidade esperada 2, enquanto M e R terão utilidade esperada 32. Sabendo disto,

1 então escolherá B e no único equilíbrio de Nash, teremos que ambos jogadores recebem 2.Suponha agora que o jogador 2, antes do jogo recebe um sinal indicando qual é o ver-

dadeiro jogo. Neste caso, a estratégia R é estritamente dominante para o tipo do jogador 2que acredita que o jogo é o primeiro, enquanto que a estratégia M é estritamente dominantepara o tipo do jogador 2 que acredita que o jogo é o segundo. Sabendo disto, o jogador 1,escolherá T . Então, neste equilíbrio o jogador 1 recebe 1 enquanto o jogador 2 recebe 3ϵ < 2.Então, ambos os jogadores saem perdendo com a informação extra adquirida pelo jogador2.

Autor: Leandro Chaves Rêgo

Page 97: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 7

Conhecimento e Conhecimento Comum

7.1 IntroduçãoNeste capítulo descrevemos um modelo para conhecimento e usamos este modelo para for-malizar a idéia do que é conhecimento comum. Utilizaremos este modelo para expressarformalmente as suposições sobre o conhecimento dos jogadores que estão por trás dos con-ceitos de equilíbrio de Nash e racionalizabilidade.

7.2 Um Modelo para ConhecimentoQuando analisamos jogos, estamos interessados não só no conhecimento dos jogadores sobreas regras do jogo, mas também no conhecimento dos jogadores sobre os conhecimentos dosdemais. Vamos iniciar introduzindo um modelo para conhecimento de um único agente.

A base deste modelo é um conjunto de estados Ω. Os estados podem ser interpretadoscomo uma descrição de todos os fatos relevantes para o problema de decisão sendo conside-rado. Uma maneira de definir o conhecimento do agente sobre o verdadeiro estado é definiruma função de informação K que associa cada estado w ∈ Ω com um conjunto não vazioK(w) de Ω. A interpretação é que quando o verdadeiro estado da natureza é w o agenteapenas sabe que o verdadeiro estado está em K(w), portanto excluindo os estados fora deK(w).

Quando utilizamos uma função de informação para modelar o conhecimento de um agentefreqüentemente assume-se que o par (Ω,K) satisfaz as seguintes condições:

P1. w ∈ K(w), ∀w ∈ Ω.

P2. Se w′ ∈ K(w), então K(w′) ⊆ K(w).

P3. Se w′ ∈ K(w), então K(w) ⊆ K(w′).

P1 afirma que o agente nunca exclui o verdadeiro estado do conjunto de estados que eleconsidera possível. P2 e P3 afirmam que o agente é capaz de realizar introspecção para checarinconsistências entre os estados e suas informações para inferir sobre o verdadeiro estado.

92

Page 98: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

7.2. UM MODELO PARA CONHECIMENTO 93

Isto é, se w′ ∈ K(w) e w′′ ∈ K(w′), então como quando o verdadeiro estado é w o agenteconsidera w′ possível, e quando o verdadeiro estado é w′ ele considera w′′ possível, entãoquando o verdadeiro estado é w, ele também deve considerar w′′ possível, caso contrárioele conseguiria distinguir entre w e w′. Portanto, w′′ ∈ K(w). Além disso, se w′ ∈ K(w)e w′′ /∈ K(w′), então como o agente não consegue distinguir entre w e w′, e quando w′ éo verdadeiro estado w′′ não é considerado possível pelo agente, temos que w′′ também nãodeve ser considerado possível pelo agente quando w for o verdadeiro estado da natureza.

Definição 7.2.1: Uma função de informação K para um conjunto Ω é particional se existeuma partição de Ω tal que para todo w ∈ Ω, o conjunto K(w) é o elemento da partição quecontém w.

O próximo lema dá uma caracterização alternativa para uma função de informação par-ticional.

Lema 7.2.2: Uma função de informação é particional se, e somente se, ela satisfaz P1, P2,e P3.

Prova: Se K for particional ela claramente satisfaz P1, P2, e P3. Agora suponha que Ksatisfaz P1, P2, e P3. Se w′′ ∈ K(w)∩K(w′), então por P2 e P3, temos que K(w) = K(w′) =K(w′′). P1 por sua vez implica que ∪w∈ΩK(w) = Ω. Portanto, K é particional.

Exemplo 7.2.3: Seja Ω = [0, 1) e assuma que o agente observa apenas os primeiros quatrodígitos da expansão decimal do número. Então, para todo w ∈ Ω o conjunto K(w) é oconjunto de todos os estados w′ ∈ Ω que possuem os mesmos quatro primeiros dígitos daexpansão decimal de w. Note que esta função de informação é particional.

Um evento é qualquer subconjunto de Ω. Dizemos que um evento ocorre se o verdadeiroestado pertence a este evento. Então, dada uma função de informação, se K(w) ⊆ E, entãoo evento E ocorre em todos os estados que o agente considera possível quando o verdadeiroestado é w. Dizemos que o agente sabe o evento E no estado w. Podemos então definir umafunção de conhecimento K por

K(E) = w ∈ Ω : K(w) ⊆ E,

ou seja, K(E) é o conjunto de todos os estados nos quais o agente sabe E. Qualquer funçãode conhecimento satisfaz as três propriedades a seguir:

K1 K(Ω) = Ω. Portanto, em todos os estados o agente sabe que Ω ocorre.

K2 Se E ⊆ F , então K(E) ⊆ K(F ). Portanto, se E implica F , e o agente sabe que Eocorre então ele sabe que F ocorre.

K3 K(E) ∩K(F ) = K(E ∩ F ). Portanto, o agente sabe E e sabe F se, e somente se, elesabe E ∩ F .

Autor: Leandro Chaves Rêgo

Page 99: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

7.2. UM MODELO PARA CONHECIMENTO 94

Se K satisfaz P1, então a função de conhecimento associada satisfaz a seguinte proprie-dade:

K4 (Axioma do Conhecimento.) K(E) ⊆ E. Portanto, o agente não pode saber algumevento que seja falso.1 Prova: Se w ∈ K(E), então K(w) ⊆ E. Como P1 implica quew ∈ K(w), temos que w ∈ E.

Se K satisfaz P2, então a função de conhecimento associada satisfaz a seguinte proprie-dade:

K5 (Axioma da Transparência.) K(E) ⊆ K(K(E)). Portanto, se o agente sabe E, elesabe que ele sabe E. Este axioma também é conhecido como axioma da introspecçãopositiva. Prova: Se w ∈ K(E), então K(w) ⊆ E. Como P2 implica que para todow′ ∈ K(w), temos K(w′) ⊆ K(w). Então, para todo w′ ∈ K(w), temos que K(w′) ⊆ E.Portanto, K(E) ⊇ K(w), ou seja, w ∈ K(K(E)).

Finalmente, se K satisfaz P3, então a função de conhecimento associada satisfaz a seguintepropriedade:

K6 (Axioma da Sabedoria.) Ω − K(E) ⊆ K(Ω − K(E)). Portanto, se o agente não sabeE, ele sabe que ele não sabe E. Este axioma também é conhecido como axioma daintrospecção negativa. Prova: Se w /∈ K(E), então K(w) * E. Como P3 implicaque para todo w′ ∈ K(w), temos K(w) ⊆ K(w′). Então, para todo w′ ∈ K(w), temosque K(w′) * E. Portanto, K(E) ∩ K(w) = ∅, ou seja, K(w) ⊆ Ω −K(E). Portanto,w ∈ K(Ω−K(E)).

O próximo exemplo ilustra alguns desses conceitos que apresentamos.

Exemplo 7.2.4: Suponha que n agentes perfeitamente racionais estão sentados ao redor deuma mesa. Todos estão usando um chapéu que ou é branco ou é preto. Todos os agentessó podem ver o chapéu dos outros agentes. Suponha que um observador anuncia: “Cadaum de vocês está usando um chapéu que ou é branco ou é preto; pelo menos um é branco.Vou contar devagar e após cada número, você tem a oportunidade de levantar a mão quandosouber a cor do seu chapéu.” Qual o primeiro instante em que um agente levantará sua mão?

Note que, após o anúncio do observador, temos 2n − 1 possíveis estados que descrevemtodas as combinações de cores pretas e brancas para os n chapéis dos agentes, exceto o casoem que todos seriam pretos. Ou seja,

Ω = w ∈ B,Pn : |i : wi = B| ≥ 1,

onde wi representa a cor do chapéu do i-ésimo agente. Inicialmente, temos que a função deinformação do i-ésimo agente é dada por: K1

i (w) = (w−i, B), (w−i, P ) se w−i = Pn−1,1Esta propriedade é que diferencia conhecimento de crença. Apesar de um agente não poder saber algo

que seja falso, ele pode acreditar em algo que seja falso.

Autor: Leandro Chaves Rêgo

Page 100: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

7.3. CONHECIMENTO COMUM 95

e Ki(w) = w se w−i = Pn−1. Note que w : wi = B é o evento o chapéu do i-ésimoagente é branco, então o evento o i-ésimo agente sabe a cor do seu chapéu é:

Ei = w : Ki(w) ⊆ w : wi = B ou Ki(w) ⊆ w : wi = P.

Quando Ki = K1i para todo i, note que apenas nos estados w em que somente um agente

i tem chapéu branco temos w ∈ Ej para algum j. Neste caso, temos que w ∈ Ei, de modoque apenas i levanta sua mão quando o observador conta 1.

Seja F 1 = w : |i : wi = B| = 1, o conjunto de estados nos quais alguém levanta amão na primeira rodada. Se ninguém levanta sua mão, então os agentes reconhecem umanova informação que w /∈ F 1. Portanto, para todo i e w /∈ F 1, temos que Ki(w) = K2

i (w) =K1

i (w) − F 1. Agora note que apenas nos estados w em que somente dois agentes i e h têmchapéu branco, temos que w ∈ Ej para algum j. Neste caso, temos que w ∈ Ei ∩ Eh, demodo que apenas i e h levantam a mão quando o observador conta 2.

Seja F 2 = w : |i : wi = B| = 2, o conjunto de estados nos quais alguém levanta amão pela primeira vez na segunda rodada. Se ninguém levanta a mão até a segunda rodada,então os agentes reconhecem que w /∈ F 1 ∪F 2, e o processo continua com Ki(w) = K3

i (w) =K2

i (w) − F 2, para todo i e w /∈ F 1 ∪ F 2. É fácil ver que se k chapéis são brancos, entãoninguém levanta a mão até o observador contar k, período no qual todos os agentes que têmchapéu branco levantam a mão.

7.3 Conhecimento ComumSuponha que no Exemplo 7.2.4 os agentes soubessem que todos tinham chapéu branco oupreto, que pelo menos um indivíduo tinha chapéu branco, e que todos os outros agentessoubessem deste fato. Então, se nenhum observador fizesse nenhum anúncio, mas apenas acontagem e aguardasse alguém levantar a mão, se pelo menos três indivíduos tivessem chapéubranco então ninguém nunca levantaria a mão. Mas se o observador apenas anunciou o queos agentes já sabiam, o que mudou nas duas situações? O que mudou foi que o observadortornou conhecimento comum entre os agentes que pelo menos um chapéu é branco. Após oanúncio os agentes além de saberem que tinha pelo menos um chapéu branco e que todosos agentes sabiam disso, eles passaram a saber que os outros sabem que eles sabem quetem pelo menos um chapéu branco, e assim por diante em todos os níveis de iteração deconhecimento. Isto ilustra a importância de níveis iterados de conhecimento dos agentes.

Formalmente, dizemos que um evento é de conhecimento mútuo em um grupo de agen-tes se todo agente neste grupo sabe o evento. Por outro lado, um evento é conhecimentocomum em um grupo de agentes se além do evento ser conhecimento mútuo entre os agen-tes do grupo, todos os agentes sabem que os outros agentes sabem do evento, e todossabem que todos sabem que todos sabem do evento, e assim por diante. Por simplici-dade, vamos nos restringir ao caso de 2 agentes. Neste caso, se K1 e K2 são as funçõesde conhecimentos dos agentes, um evento E por definição é conhecimento comum entre1 e 2 em um estado w se w pertence a todos os eventos na seguinte seqüência infinita:K1(E), K2(E), K1(K2(E)), K2(K1(E)), K1(K2(K1(E))), . . .

Autor: Leandro Chaves Rêgo

Page 101: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

7.3. CONHECIMENTO COMUM 96

Se K1 e K2 são as funções de informação dos agentes 1 e 2, um evento F é auto-evidenteentre 1 e 2 se para todo w ∈ F , temos Ki(w) ⊆ F para 1 e 2. Portanto, se um eventoauto-evidente entre 1 e 2 é verdadeiro, ele é conhecimento mútuo entre os agentes 1 e 2. Opróximo lema estabelece algumas caracterizações equivalentes para eventos auto-evidentes.

Lema 7.3.1: Sejam K1 e K2 funções de informação particionais, sejam K1 e K2 as funçõesde conhecimento associadas, e E um evento qualquer. Então as seguintes condições sãoequivalentes:

(a) Ki(E) = E para i = 1, 2.

(b) E é auto-evidente entre 1 e 2.

(c) E é igual uma união de membros da partição induzida por Ki, para i = 1, 2.

Prova: Assuma que (a) é verdadeiro. Então, para todo w ∈ E, temos Ki(w) ⊆ E parai = 1, 2, portanto (b) é verdadeiro. Assuma agora que vale (b). Então, E = ∪w∈EKi(w)(recorde que w ∈ Ki(w)) para i = 1, 2, portanto vale (c). Finalmente, se vale (c), temos quepara todo w ∈ E, Ki(w) ⊆ E, ou seja, w ∈ Ki(E). Por outro lado, como Ki é particional,temos que Ki(E) ⊆ E. Logo, vale (a).

Podemos agora utilizar o Lema 7.3.1 para dar uma nova caracterização para conhecimentocomum em termos de eventos auto-evidentes.

Teorema 7.3.2: Seja Ω um conjunto de estados finito, sejam K1 e K2 funções de informaçãoparticionais, e sejam K1 e K2 as funções de conhecimento associadas. Então um evento Eé conhecimento comum entre 1 e 2 no estado w se, e somente se, existir um evento auto-evidente F entre 1 e 2, tal que w ∈ F ⊆ E.

Prova: Assuma que o evento E é conhecimento comum entre 1 e 2 no estado w. Pelo axiomaK4, temos que para cada i ∈ 1, 2 e j = i, E ⊇ Ki(E) ⊇ Kj(Ki(E)) ⊇ Ki(Kj(Ki(E))) ⊇· · · . Como E é conhecimento comum em w, temos que w pertence a todos os eventosna seqüência anterior, logo todos eles são não vazios. Como Ω é finito, existe um eventoFi = Ki(Kj(Ki · · ·Ki(E) · · · )) para o qual Kj(Fi) = Fi. Por K4 e K5, temos que Ki(Fi) = Fi.Então, pelo Lema 7.3.1, temos que Fi é auto-evidente entre 1 e 2. Além disso temos quew ∈ Fi ⊆ E.

Para a recíproca, assuma que exista um evento auto-evidente F entre 1 e 2 e um estadow, tal que w ∈ F ⊆ E. Como F é auto-evidente, pelo Lema 7.3.1, temos que todos oseventos do tipo Ki(Kj(Ki · · ·Ki(F ) · · · )) são iguais a F . Como w ∈ F , segue de K2 que w émembro de todos os eventos do tipo Ki(Kj(Ki · · ·Ki(E) · · · )). Portanto, E é conhecimentocomum entre 1 e 2.

Exemplo 7.3.3: Seja Ω = w1, w2, . . . , w6, K1 e K2 funções de informação particionais, esejam K1 e K2 as funções de conhecimento associadas. Sejam as partições induzidas por K1

e K2 dadas por:

K1 = w1, w2, w3, w4, w5, w6K2 = w1, w2, w3, w4, w5, w6

Autor: Leandro Chaves Rêgo

Page 102: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

7.4. IMPOSSIBILIDADE DE CONCORDAR EM DISCORDAR 97

O evento E = w1, w2, w3, w4 não contém nenhum evento não vazio que seja auto-evidente entre 1 e 2, portanto, E não é conhecimento comum em nenhum estado. O eventoF = w1, w2, w3, w4, w5 é auto-evidente entre 1 e 2, portanto é conhecimento comum entre1 e 2 em qualquer estado em F .

7.4 Impossibilidade de Concordar em DiscordarNesta seção provaremos que se as funções de informação de agentes são particionais, nãoé possível que seja conhecimento comum entre dois agentes que têm uma probabilidade apriori comum sobre os estados que o agente 1 associa probabilidade η1 a um evento e queo agente 2 associa probabilidade η2 = η1 ao mesmo evento. Isto é, é impossível que sejaconhecimento comum entre agentes com a mesma distribuição a priori que eles discordam dadistribuição a posteriori de um mesmo evento. Portanto, se queremos modelar uma situaçãoem que é conhecimento comum que existe diferença na distribuição a posteriori de eventos,não podemos assumir que existe uma distribuição a priori comum entre os agentes, como,por exemplo, freqüentemente assume-se em jogos bayesianos.

Seja ρ uma medida de probabilidade no conjunto de estados Ω, interpretada como aprobabilidade a priori comum entre os agentes, e seja K1 e K2 as funções de informação dosagentes. Se E é um evento e ρ(E|Ki(w)) = ηi, onde ρ(E|Ki(w)) é a probabilidade do eventoE condicionada em Ki(w), então no estado w o agente i associa probabilidade ηi ao eventoE. Logo, o evento “agente i associa probabilidade ηi ao evento E” é w : ρ(E|Ki(w)) = ηi.

Teorema 7.4.1: Suponha que o conjunto Ω de estados é finito e que os agentes 1 e 2 têma mesma probabilidade a priori. Se as funções de informação dos agentes são particionaise é conhecimento comum entre 1 e 2 em algum estado w∗ ∈ Ω que o agente 1 associaprobabilidade η1 a algum evento E e o agente 2 associa probabilidade η2 a algum evento E,então η1 = η2.

Prova: Se as hipóteses são satisfeitas, então existe um evento auto-evidente F tal quew∗ ∈ F e F é um subconjunto de ∩2

i=1w : ρ(E|Ki(w)) = ηi, onde ρ é a probabilidade apriori comum e Ki é a função de probabilidade do agente i. Pelo Lema 7.3.1, F é a união demembros da partição induzida pela função de informação do agente i para i = 1, 2. ComoΩ é finito, o número de membros das partições são finitos. Então F = ∪n

k=1Ak, onde Ak émembro da partição induzida por K1 e F = ∪m

k=1Bk, onde Bk é membro da partição induzidapor K2. Como para todo k, ρ(E|Ak) = η1, segue que ρ(E|F ) = η1. Similarmente, obtemosρ(E|F ) = η2. Logo, η1 = η2.

Autor: Leandro Chaves Rêgo

Page 103: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Capítulo 8

Jogos Repetidos

8.1 IntroduçãoAgentes podem se comportar de maneira diferente em relação a outros agentes com os quaiseles esperam interagir novamente em comparação a outros agentes com os quais eles esperamnunca mais interagir. Para entender como o comportamento racional e inteligente pode serafetado pela estrutura de futuras interações entre os agentes, estudam-se jogos repetidos.

Em geral, temos duas classes de modelos para jogos repetidos: o horizonte pode ser finitoou infinito. Veremos que os resultados podem ser diferentes quando analisamos um ou outrotipo de modelo. Um modelo com um horizonte infinito é apropriado se após cada período deinteração os agentes acreditam que o jogo continuará, enquanto um modelo com horizontefinito é apropriado se os agentes claramente percebem um período final de interação para ojogo.

8.2 Jogos Repetidos Infinitas VezesO modelo para jogos repetidos infinitas vezes captura uma situação na qual agentes interagemrepetidas vezes em um jogo em forma normal G. Assumiremos que G = (N, (Ai)i∈N , (ui)i∈N),onde Ai é compacto e ui é uma função contínua e limitada em A = ×j∈NAj.

Definição 8.2.1: A repetição infinita de um jogo G é um jogo em forma extensiva cominformação perfeita e movimentos simultâneos (N,H, P, (u∗

i )i∈N), onde

• H = ∅ ∪ (∪∞t=1A

t) ∪ A∞, onde ∅ é a história inicial e A∞ é o conjunto de todas asseqüências infinitas (at)∞t=1 de perfis de estratégias de G.

• P (h) = N para toda história não terminal, de forma que todos os jogadores se movemapós cada repetição do jogo G.

• u∗i é uma função utilidade em A∞ que estende a função utilidade ui no sentido que ela

satisfaz a seguinte condição de separabilidade fraca: se (at) ∈ A∞, a ∈ A, a′ ∈ A, eui(a) ≥ ui(a

′), então

u∗i (a

1, . . . , at−1, a, at+1, . . .) ≥ u∗i (a

1, . . . , at−1, a′, at+1, . . .),

98

Page 104: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.2. JOGOS REPETIDOS INFINITAS VEZES 99

para todos os valores de t.

Uma história é terminal se, e somente se, ela for infinita. Após qualquer história nãoterminal, cada jogador escolhe uma ação em Ai. Portanto, uma estratégia para o jogador i éuma função que associa uma ação em Ai para cada seqüência finita de perfis de estratégiasde G.

Podemos impor outras condições nas funções utilidades dos agentes além da separabili-dade fraca. Primeiro, podemos assumir que a função utilidade u∗

i do jogo repetido é baseadasomente na função utilidade do jogo G, isto é, assumimos que se u∗

i ((at)∞t=1) ≥ u∗

i ((bt)∞t=1)

depende apenas da relação entre as correspondentes seqüência de utilidades ui(at) e ui(b

t)de G. Consideraremos três possíveis condições na forma da função utilidade, a primeira édefinida a seguir:

Definição 8.2.2: Desconto. Existe algum número δ ∈ (0, 1), chamado de fator de desconto,tal que a seqüência de números reais vti é pelo menos tão boa quanto a seqüência wt

i se, esomente se,

∑∞i=1 δ

t−1(vti − wti) ≥ 0. Como assumimos que vti é limitada, temos que a série∑∞

i δt−1vti é convergente e representa como o agente i avalia a seqüência (vti) de utilidades.Quando a função utilidade de todos os agentes tomam esta forma, nos referimos ao perfil((1−δ)

∑∞t=1 δ

t−1vti)i∈N como o perfil de utilidades no jogo repetido associado com a seqüência(vt) de perfil de utilidades do jogo G.

Note que utilidades que satisfazem este critério do desconto tratam os períodos de formadiferente, pois o valor de um ganho diminui com o tempo. As outras condições tratam osperíodos de forma simétrica. No primeiro critério os jogadores avaliam uma seqüência (vti)essencialmente pelo limite de sua média aritmética limT

1T

∑Tt=1 v

ti , contudo como este limite

pode não existir o critério se torna o seguinte:

Definição 8.2.3: Limite das Médias. De acordo com este critério, a seqüência de númerosreais (vti) é melhor que a seqüência (wt

i) se, e somente se, lim infT1T

∑Tt=1(v

ti − wt

i) > 0.Quando a função utilidade de todos os agentes tomam esta forma, nos referimos ao perfil(limT

1T

∑Tt=1 v

ti)i∈N , se ele existe, como o perfil de utilidades no jogo repetido associado com

a seqüência (vt) de perfil de utilidades do jogo G.

Note que ao contrário do caso do desconto onde a mudança de utilidade em apenas umúnico período pode alterar a preferência entre seqüências, no caso do critério do limite demédias, qualquer mudança em um número finito de períodos não altera como a seqüênciaé avaliada. Portanto, este critério é útil para modelar situações onde os agentes põe todaimportância no longo prazo mesmo que isso signifique prejuízos consideráveis no curto prazo.

O terceiro e último critério trata os períodos simetricamente, coloca ênfase no longoprazo, mas ao mesmo tempo é sensível a uma mudança de utilidade em um único período.

Definição 8.2.4: Ultrapassagem. De acordo com este critério, a seqüência de númerosreais (vti) é melhor que a seqüência (wt

i) se, e somente se, lim infT∑T

t=1(vti − wt

i) > 0.

Autor: Leandro Chaves Rêgo

Page 105: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.3. ESTRATÉGIAS COMO MÁQUINAS 100

Observação 8.2.5: Quando utilizamos este critério, não pode-se definir um perfil de utili-dades do jogo repetido associado a uma seqüência de utilidades vt do jogo G, pois na grandemaioria dos casos de interesse

∑t v

ti é uma série divergente.

Os seguintes exemplos ilustram algumas diferenças entre esses três critérios. A seqüência(1,−1, 0, 0, . . .) é melhor para qualquer δ ∈ (0, 1) pelo critério do desconto que a seqüên-cia (0, 0, . . .), mas de acordo com os outros dois critérios as seqüências são indiferentes. Aseqüência (−1, 2, 0, 0, . . .) é melhor que a seqüência (0, 0, . . .) segundo o critério da ultrapas-sagem, mas as duas são indiferentes segundo o critério do limite das médias. A seqüência(0, . . . , 0, 1, 1, . . .) na qual M zeros são seguidos por uma seqüência constante de 1’s é melhorpelo critério do limite das médias que a seqüência (1, 0, 0, . . .) para qualquer valor de M , maspara qualquer δ existe um M∗ grande o suficiente tal que para todo M > M∗, esta últimaseqüência é melhor que a anterior pelo critério do desconto para este valor de δ.

Denotaremos por u(a) o perfil (ui(a))i∈N . Um vetor v ∈ IRN é um perfil de utilidadesde (N, (Ai), (ui)) se existe um perfil de estratégias a ∈ A para o qual v = u(a). Nosreferimos a um vetor v ∈ IRN como um perfil de utilidades possível de (N, (Ai), (ui)) se elefor uma combinação convexa de perfis de utilidades, isto é, se v =

∑a∈A αau(a) para alguma

coleção (αa)a∈A de números racionais não-negativos com∑

a∈A αa = 1.1 Note que um perfilde utilidades possível de (N, (Ai), (ui)) não é necessariamente um perfil de utilidades de(N, (Ai), (ui)).

8.3 Estratégias como MáquinasNesta seção apresentamos uma linguagem para descrever convenientemente as estratégiasutilizadas por jogadores em jogos repetidos. Começamos definindo o que é uma máquina,que é uma abstração do processo utilizado por um jogador para implementar uma estratégia.Uma máquina para o jogador i de um jogo G = (N, (Ai), (ui)) repetido infinitas vezes têmas seguintes componentes:

• Um conjunto de estados Qi.

• Um estado inicial q0i ∈ Qi.

• Uma função de saída fi : Qi → Ai que especifica uma estratégia do jogo G para cadaestado.

• Uma função de transição τi : Qi×A → Qi que associa um estado a cada par de estadoe perfil de estratégias do jogo G.

Para ilustrar este conceito de máquina considere os seguintes exemplos de máquinas paraum jogador no Dilema do Prisioneiro representado na tabela a seguir repetido infinitas vezes.

1Seguimos a restrição de requerer que αa seja racional sugerida por Osborne e Rubistein (1994), estarestrição pode ser retirada complicando argumentos que veremos a seguir.

Autor: Leandro Chaves Rêgo

Page 106: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.3. ESTRATÉGIAS COMO MÁQUINAS 101

C DC 3,3 0,4D 4,0 1,1

Exemplo 8.3.1: A máquina (Qi, q0i , fi, τi) definida a seguir é a mais simples que implementa

a estratégia que escolhe C enquanto ambos jogadores tenham sempre escolhido C no passado,e escolhe D no caso contrário.

• Qi = C,D.

• q0i = C.

• fi(C) = C e fi(D) = D.

• τi(C, (C,C)) = C e τi(X, (Y, Z)) = D se (X, (Y, Z)) = (C, (C,C)).

Exemplo 8.3.2: A seguinte máquina implementa a estratégia para o jogador 1 escolha Cenquanto 2 escolhe C, se o jogador 2 escolhe D quando o jogador 1 escolhe C, o jogador1 jogará D por três períodos seguidos e retornará a escolher C após esses três períodosindependente das escolhas de 2 nestes três períodos, ou seja, 1 pune 2 por três períodos edepois perdoa 2.

• Q1 = P0, P1, P2, P3.

• q01 = P0.

• f1(P0) = C e f1(P ) = D se P = P0.

• τ1(P0, (·, C)) = P0, τ1(P0, (·, D)) = P1, τ1(P1, (·, ·)) = P2, τ1(P2, (·, ·)) = P3, e τ1(P3, (·, ·)) =P0.

Exemplo 8.3.3: A seguinte máquina implementa a estratégia para o jogador 2, comecejogando C e continue se o jogador 1 escolhe D. Se o jogador 1 escolher C, então escolha D,continue a jogar D até que o jogador 1 escolha D novamente, quando 2 deverá escolher C,e assim por diante.

• Q2 = R0, R1.

• q02 = R0.

• f2(R0) = C e f2(R1) = D.

• τ2(R0, (D, ·)) = R0, τ2(R0, (C, ·)) = R1, τ2(R1, (C, ·)) = R1, e τ2(R1, (D, ·)) = R0.

Autor: Leandro Chaves Rêgo

Page 107: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.4. ESTRATÉGIAS GATILHO: TEOREMAS DE NASH FOLK 102

8.4 Estratégias Gatilho: Teoremas de Nash FolkEstudamos agora o conjunto de equilíbrios de Nash de um jogo repetido infinitas vezes.Mostramos que este conjunto inclui perfis de estratégias que não são repetições de equilíbriosde Nash do jogo que se repete a cada período. Para justificar este perfil, cada jogador deve serimpedido de desviar através de uma punição. Esta punição pode tomar várias formas. Umapossibilidade é que cada jogador use uma estratégia gatilho: qualquer desvio dos outrosjogadores leva o jogador a realizar uma estratégia punitiva que dura para sempre. Nestaseção estudaremos equilíbrios em que os jogadores utilizam tais tipos de estratégias.

Dado um jogo G = (N, (Ai), (ui)), uma utilidade minimax para o jogador i, denotadapor vi, é a menor utilidade que os demais jogadores podem forçar jogador i receber:

vi = mina−i∈A−i

maxai∈Ai

ui(a−i, ai).

Um perfil de utilidades w para o qual temos wi ≥ vi para todo i ∈ N é chamado individual-mente racional; se wi > vi para todo i ∈ N , então w é individualmente racional estrito. Sea ∈ A é um perfil de estratégias de G para o qual u(a) é individualmente racional (estrito),então nos referimos a a como um perfil de estratégias individualmente racional (estrito) deG. Seja p−i ∈ A−i uma das soluções do problema de minimização acima. A coleção deestratégias p−i é a punição mais severa que os demais jogadores podem impor ao jogador i.Mostraremos que existe uma relação entre o conjunto de perfis de utilidade dos equilíbriosde Nash de um jogo repetido infinitas vezes e o conjunto de perfis de utilidade possíveise individualmente racionais do jogo G, quando utilizamos ou o critério do desconto ou ocritério do limite das médias.

Teorema 8.4.1: Todo perfil de utilidades de um equilíbrio de Nash do jogo G = (N, (Ai), (ui))repetido infinitas vezes quando se utiliza os critérios do limite das médias ou do descontopara qualquer fator de desconto δ ∈ (0, 1) é um perfil de utilidades individualmente racionalde G.

Prova: Suponha que w é um perfil de utilidades do jogo que não é individualmente racionalem G. Então, existe i ∈ N tal que wi < vi. w não pode ser um perfil de utilidades de umequilíbrio de Nash do jogo repetido infinitas vezes quando se utiliza os critérios do limite dasmédias ou do desconto para qualquer fator de desconto δ ∈ (0, 1), pois para qualquer perfilde estratégias do jogo repetido s, a estratégia s′i do jogador i que é uma melhor resposta as−i(h) para cada história h garante ao jogador i utilidade de pelo menos vi em cada período.Portanto, utilizando qualquer um desses dois critérios, temos que é vantajoso para o jogadori mudar de estratégias quando estamos considerando qualquer perfil de estratégias que dáao jogador i utilidade menor que vi. Logo, tais perfis não podem ser equilíbrios de Nash dojogo repetido.

O próximo teorema prova a recíproca para o caso do critério do limite das médias.

Teorema 8.4.2: Teorema de Nash Folk para o Critério do Limite das Médias.Todo perfil de utilidades possível e individualmente racional de um jogo G = (N, (Ai), (ui))é um perfil de utilidades de um equilíbrio de Nash do jogo G repetido infinitas vezes quandoutilizamos o critério do limite das médias.

Autor: Leandro Chaves Rêgo

Page 108: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.4. ESTRATÉGIAS GATILHO: TEOREMAS DE NASH FOLK 103

Prova: Seja w =∑

a∈A(βa

γ)u(a) um perfil de utilidades possível e individualmente racional,

onde βa é um número inteiro e γ =∑

a∈A βa. (Note que é sempre possível escrever um perfilde utilidades possível e individualmente racional desta forma pois assumimos que αa é umnúmero racional na definição de um perfil de utilidades possível.) Seja (at) uma seqüênciacíclica de perfis de estratégia do jogo G onde o ciclo de comprimento γ possui βa repetiçõesdo perfil de estratégias a para todo a ∈ A. Seja si a estratégia para o jogo repetido dojogador i que escolhe ati em cada período t exceto quando existir algum período anteriort′ onde um único jogador diferente de i desviou da estratégia especificada pelo perfil at′ ,neste caso, se j foi o primeiro jogador a desviar em um tal período t′, temos que i jogaráa estratégia (p−j)i em todos os períodos subseqüentes a t′ independente do que os demaisjogadores façam no futuro. O perfil de estratégias s é um equilíbrio de Nash do jogo repetidovisto que um jogador j que desvia da estratégia sj recebe no máximo sua utilidade minimaxvj em todo período subseqüente ao primeiro desvio, portanto segundo o critério do limitedas médias a utilidade desta outra estratégia é menor ou igual a vj. Mas de acordo com operfil s, a utilidade de j é igual a wj ≥ vj segundo este critério, portanto nenhum jogadortem incentivo a desviar da estratégia determinada pelo perfil s.

O próximo teorema é o resultado análogo para o critério do desconto.

Teorema 8.4.3: Seja w um perfil de utilidades possível e individualmente racional estritode um jogo G = (N, (Ai), (ui)). Para todo ϵ > 0, existe δ′ < 1 tal que se 1 > δ > δ′, então ojogo G repetido infinitas vezes quando se utiliza o critério do desconto com fator de descontoδ possui um equilíbrio de Nash com perfil de utilidades w′ satisfaz |w′ − w| < ϵ.

Prova: Exercício.

Exemplo 8.4.4: Para ilustrar equilíbrios de Nash nos quais jogadores utilizam estratégiasgatilho, considere dois jogos repetidos infinitas vezes. O primeiro G1 é o Dilema do Prisioneirodescrito na tabela a seguir:

C DC 3,3 0,4D 4,0 1,1

O segundo G2 é o jogo descrito na tabela a seguir:

C DC 2,3 1,5D 0,1 0,1

Em G1 e G2 temos que a utilidade minimax para ambos os jogadores é 1 e jogando Dcada jogador garante que o outro não pode conseguir uma utilidade maior que este valor(p−1 = p−2 = D). Em ambos os casos, a estratégia gatilho utilizada na prova do Teorema 8.4envolve os jogadores mudar para utilizar D em resposta a algum desvio das estratégias deequilíbrio. Em G1 como D domina C, então esta ameaça é justificável. Por outro lado, emG2 como a estratégia C domina a estratégia D para o jogador 1, o jogador 1 sofre com apunição que ele impõe ao jogador 2. Portanto, esta ameaça no jogo G2 parece inacreditável.

Autor: Leandro Chaves Rêgo

Page 109: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITOPARA O CRITÉRIO DO LIMITE DAS MÉDIAS 104

Este exemplo nos leva a necessidade de analisar equilíbrios de subjogo perfeito, pois nestecaso todos os jogadores têm que agir otimamente após cada história.

8.5 Punindo por Tempo Limitado: Um Teorema de FolkPerfeito para o Critério do Limite das Médias

As estratégias gatilho utilizadas na prova do Teorema de Nash Folk punem os jogadores quedesviam da estratégia de equilíbrio indefinidamente. Esta punição pode ser desnecessaria-mente severa, só é necessário manter a utilidade do jogador que desvia da estratégia prescritano nível minimax por uma quantidade de períodos suficientemente grande para que o desvionão seja lucrativo; deste modo, inibindo tal comportamento. Se as preferências dos jogado-res obedecem o critério do limite das médias, então esta estratégia que retorna a trajetóriade equilíbrio tem a vantagem que ela proporciona a mesma utilidade que a trajetória deequilíbrio, visto que elas diferem em apenas um número finito de períodos. Portanto, estaestratégia não causa nenhum prejuízo ao jogador que precisa impor uma punição a algumoponente. Veremos que tal estratégia constitui um equilíbrio de subjogo perfeito do jogorepetido infinitas vezes quando o critério do limite das médias é utilizado.

Teorema 8.5.1: Todo perfil de utilidades possível e individualmente racional estrito de umjogo G = (N, (Ai), (ui)) é um perfil de utilidades de um equilíbrio de subjogo perfeito do jogoG repetido infinitas vezes quando consideramos o critério do limite das médias.

Prova: Seja w =∑

a∈A(βa

γ)u(a) um perfil de utilidades possível e individualmente racional

estrito, onde βa é um número inteiro e γ =∑

a∈A βa. Seja ainda (ak)γk=1 uma seqüência deperfis de estratégia de G que consiste de βa repetições de a para cada a ∈ A.

Vamos construir um perfil de estratégias para o jogo repetido que gera uma seqüênciade perfis de estratégias de G que consiste de infinitas repetições do ciclo (ak)γk=1. Cadajogador pune um desvio dos demais por um período limitado de tempo, que por conveniênciaassumiremos que só inicia após o fim de um ciclo (ak)γk=1. Após o período de punição todos osjogadores retomam as repetições de (ak)γk=1. Se houverem desvios simultâneos de jogadoresesses são ignorados e não são punidos. Como estamos considerando o critério do limite dasmédias, se todos os jogadores, seguem este tipo de estratégia temos que qualquer trajetóriatêm perfil de utilidade w.

Formalmente, seja g∗ = maxi∈N,a′i∈Ai,a∈A ui(a−i, a′i)−ui(a), isto é, g∗ é o maior ganho que

qualquer jogador pode ter desviando de qualquer perfil de estratégias. Como wi > vi, existeum inteiro m∗ grande o suficiente tal que m∗(wi − vi) ≥ γg∗ para todo i ∈ N . A estratégiade qualquer jogador i pune qualquer jogador que desvie por m∗ períodos e é descrita pelaseguinte máquina:

• Qi = (Normk, d): ou k = 1 e d = 0, ou 2 ≤ k ≤ γ e d ∈ 0 ∪N ∪ P (j, t) : j ∈ Ne 1 ≤ t ≤ m∗.

O estado (Normk, 0) significa que estamos no k-ésimo período de um ciclo enenhum jogador merece punição.

Autor: Leandro Chaves Rêgo

Page 110: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITOPARA O CRITÉRIO DO LIMITE DAS MÉDIAS 105

O estado (Normk, j) significa que estamos no k-ésimo período de um ciclo e ojogador j merece punição.

O estado P (j, t) significa que o jogador j está sendo punido e ainda restam tperíodos de punição.

• q0i = (Norm1, 0).

• fi((Normk, d)) = aki , fi(P (j, t)) = (p−j)i se j = i e fi(P (i, t)) = bi(p−i), onde bi(p−i) éuma melhor resposta para p−i em G.

• De P (j, t) mude para P (j, t− 1) se 2 ≤ t ≤ m∗, de P (j, 1) mude para (Norm1, 0).

• De (Normk, d) mude para (Normk+1(modγ), d), exceto quando

d = 0 e apenas o jogador j desviou de ak, neste caso, de (Normk, 0) mude para(Normk+1, j) se k = γ e de (Normγ, 0) mude para P (j,m∗).

d = 0 e k = γ, neste caso de (Normγ, d) mude para P (d,m∗).

Vamos agora verificar que este perfil de estratégias constitui um equilíbrio de subjogoperfeito do jogo repetido quando usamos o critério do limite das médias. Primeiro, apósqualquer história na qual nenhum jogador tenha desviado ainda, nenhum jogador pode des-viar da estratégia de equilíbrio e obter ganhos, pois o maior ganho possível por ciclo é γg∗ ea perda que o jogador i sofrerá pela punição dos demais é m∗(wi − vi) por ciclo, que é maiorou igual a γg∗ para todo i ∈ N .

Suponha agora que estamos em qualquer história na qual o jogador j merece ser punido ouestá sendo punido. Note que após o ciclo de punição para o jogador j, segundo as estratégiasde equilíbrio, o jogo retornará ao estado inicial, e já provamos que deste ponto em diantenão é vantajoso para nenhum jogador desviar da estratégia de equilíbrio. Portanto, comoaté o fim do ciclo da punição temos uma quantidade finita de no máximo (γ+m∗) períodos,segundo o critério do limite das médias nenhum jogador pode desviar com vantagem.

Considere novamente o jogo do Dilema do Prisioneiro da tabela a seguir repetido infinitasvezes.

C DC 2,3 1,5D 0,1 0,1

Neste jogo, temos v1 = v2 = 1. Considere o perfil de estratégias do jogo repetidodefinido na prova do Teorema 8.5.1 que suporta a seqüência de perfis de estratégia (at), ondeat = (C,C) que toma a seguinte forma: cada jogador escolhe C em todo período a não serque os outros jogadores desviaram no período anterior, neste caso o jogador escolhe D por2 períodos e depois retorna a escolher C.

Apesar desta estratégia ser um equilíbrio de subjogo perfeito quando considera-se o cri-tério do limite das médias, ela não é um equilíbrio de considerarmos ou a regra da ultra-passagem ou a regra do desconto. Note que após um desvio do jogador 2, o jogador 1 deve

Autor: Leandro Chaves Rêgo

Page 111: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.6. PUNINDO QUEM NÃO PUNE: UM TEOREMA DE FOLK PERFEITO PARA OCRITÉRIO DA ULTRAPASSAGEM 106

escolher D por 2 períodos antes de retornar a C. Contudo, jogador 1 estaria melhor esco-lhendo C que punindo o jogador 2, pois a seqüência de utilidades (1, 1, 2, 2, 2, . . .) é melhorsegundo os critérios de ultrapassagem e do desconto que a seqüência (0, 0, 2, 2, 2, . . .). Parajustificar uma trajetória de equilíbrio na qual o perfil de estratégias (C,C) é utilizado emtodo período, jogador 2 precisa punir o jogador 1 se este não punir o jogador 2. Além disso,jogador 2 tem que ser punido se ele não punir jogador 1 por não punir o jogador 2, e assimpor diante. A seguir usaremos estratégias que satisfazem este critério para provar TeoremasPerfeitos de Folk para os critérios de ultrapassagem e desconto.

8.6 Punindo quem não Pune: Um Teorema de Folk Per-feito para o Critério da Ultrapassagem

O próximo teorema utiliza estratégias que punem quem não punir para provar um teoremade Folk Perfeito para o critério da ultrapassagem. Por simplicidade, construiremos umaestratégia apenas para o caso onde a trajetória de equilíbrio consiste de repetições de umúnico perfil de estratégia individualmente racional estrito.

Teorema 8.6.1: Para todo perfil de estratégias individualmente racional estrito a∗ de umjogo G = (N, (Ai), (ui)), existe um um equilíbrio de subjogo perfeito do jogo G repetidoinfinitas vezes quando consideramos o critério da ultrapassagem que gera a trajetória (at),onde at = a∗, ∀t.

Prova: Seja M o máximo de ui(a) para todo i ∈ N e a ∈ A. Considere o perfil de estratégiasonde o jogador i utiliza a estratégia descrita pela seguinte máquina:

• Qi = Norm ∪ P (j, t) : j ∈ N e t ∈ IN.

No estado Norm ninguém necessita ser punido.

No estado P (j, t) jogador j necessita ser punido por t períodos.

• q0i = Norm.

• fi(Norm) = a∗i , fi(P (j, t)) = (p−j)i se j = i e fi(P (i, t)) = bi(p−i), onde bi(p−i) é umamelhor resposta para p−i em G.

• Em resposta a um perfil de estratégia a:

De Norm fique em Norm exceto quando aj = a∗j para um e somente um j, nestecaso mude para P (j, t), onde t é o menor inteiro tal que M + tvj < (t+ 1)uj(a

∗).(Lembre que como a∗ é individualmente racional estrito uj(a

∗) > vj∀j ∈ N .)

De P (j, t):

∗ se a−j = p−j ou al = (p−j)l para pelo menos dois jogadores diferentes de j, ouseja, ou todos punem j ou pelo menos dois não punem, mude para P (j, t−1)se t ≥ 2, e para Norm se t = 1.

Autor: Leandro Chaves Rêgo

Page 112: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARAO CRITÉRIO DO DESCONTO 107

∗ se al = (p−j)l para um e somente um jogador l, então mude para P (l, T (j, t)),onde T (j, t) é um inteiro grande o suficiente tal que a soma da utilidade de lno estado P (j, t) e nos T (j, t) períodos seguintes se l não desviar é maior ouigual sua utilidade no estado P (j, t) quando ele desvia mais T (j, t)vl. (Estenúmero T (j, t) existe pois após t períodos os jogadores retornariam ao perfilde equilíbrio a∗ e ul(a

∗) > vl).

Com este perfil de estratégias, qualquer tentativa de algum jogador de aumentar suautilidade desviando sozinho após qualquer história, incluindo histórias após a qual puniçãodeve ocorrer, não é vantajosa devido a punição imposta pelos outros jogadores. Um argu-mento similar ao do Teorema 8.5.1 prova que este perfil é realmente um equilíbrio de subjogoperfeito. Verifique!

8.7 Recompensando quem Pune: Um Teorema de FolkPerfeito para o Critério do Desconto

Como na estratégia utilizada na seção anterior um jogador, que não pune um outro jogadorj que deveria ser punido no período t, deve ser penalizado durante T (j, t) períodos no futuro,temos que estes períodos de penalização podem ser cada vez maiores, portanto não importaquão próximo de 1 seja o fator de desconto pode ser que seja impossível que a pena futuraseja maior que o ganho presente do jogador quando utilizamos o critério do desconto.

Para estabelecer um resultado análogo para o caso do critério do desconto, para tantousaremos estratégias segundo as quais jogadores que punem jogadores que desviam da estra-tégia de equilíbrio são recompensados no futuro tornando o ato de punir vantajoso para taisjogadores. Como anteriormente, por simplicidade, construiremos uma estratégia apenas parao caso onde a trajetória de equilíbrio consiste de repetições de um único perfil de estratégiaindividualmente racional estrito. Neste, teorema precisamos restringir a classe de jogos G.Dizemos que um jogo G = (N, (Ai), (ui)) tem dimensionalidade completa em relação a umperfil de estratégias a∗ individualmente racional e estrito se existe uma coleção (a(i))i∈N deperfis de estratégias individualmente racionais e estritos de G de forma que para todo i ∈ N ,temos a∗ ≻i a(i) e a(j) ≻i a(i) para todo j ∈ N − i.

Teorema 8.7.1: Seja a∗ um perfil de estratégias individualmente racional e estrito de umjogo G = (N, (Ai), (ui)) com dimensionalidade completa em relação a a∗. Então, existe δ < 1tal que para todo δ > δ existe um equilíbrio de subjogo perfeito do jogo G repetido infinitasvezes quando utilizamos o critério do desconto com fator de desconto δ que gera a trajetória(at) na qual at = a∗ para todo t.

Prova: Iremos descrever as estratégias utilizadas pelos jogadores neste tipo de equilíbriode subjogo perfeito utilizando uma máquina com três tipos de estados. No estado C(0) operfil de estratégias de G escolhido pelos jogadores é a∗. Para cada j ∈ N o estado C(j)é um estado de “reconciliação” que ocorre após uma punição ao jogador j ser completada,neste estado o perfil de estratégias escolhido é a(j). Para cada jogador j e período t entre

Autor: Leandro Chaves Rêgo

Page 113: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARAO CRITÉRIO DO DESCONTO 108

1 e L, que especificaremos depois, o estado P (j, t) é um no qual ainda restam t períodospara o jogador j ser punido, neste estado todo jogador i exceto j escolhe a estratégia (p−j)i,e o jogador j escolhe uma melhor resposta para p−j. Se um único jogador i se desviar datrajetória de equilíbrio ocorre uma transição para o estado P (i, L). Se em nenhum dos Lperíodos houver um desvio por um único jogador diferente de i o estado se torna C(i). Noteque o conjunto de estados C(i) serve como um sistema que pune jogadores que desviamdurante a fase de punição: se algum jogador i não pune jogador j como ele deveria fazer,então após a fase de punição ao invés do estado se tornar C(j) se tornará C(i), então operfil de estratégias escolhido será pior para o jogador i, pois a(j) ≻i a(i). Formalmente,assumindo que a(0) = a∗, temos

• Qi = C(j) : j ∈ 0 ∪N ∪ P (j, t) : j ∈ N e 1 ≤ t ≤ L.

• q0i = C(0).

• fi(C(j)) = (a(j))i, fi(P (j, t)) = (p−j)i se j = i e fi(P (i, t)) = bi(p−i), onde bi(p−i) éuma melhor resposta para p−i em G.

• Em resposta a um perfil de estratégia a:

De C(j) fique em C(j) exceto quando ak = (a(j))k para um e somente um k,neste caso mude para P (k, L).

De P (j, t):

∗ se a−j = p−j ou ak = (p−j)k para pelo menos dois jogadores diferentes dej, ou seja, ou todos punem j ou pelo menos dois não punem, mude paraP (j, t− 1) se t ≥ 2, e para C(j) se t = 1.

∗ se ak = (p−j)k para um e somente um jogador k = j, então mude paraP (k, L).

Resta-nos agora especificar os valores de δ e L. Seja M o máximo de ui(a) para todoi ∈ N e a ∈ A. Devemos escolher δ e L grandes o suficiente para que qualquer desvio nãoseja vantajoso. Considere que estamos em um estado C(j), então a utilidade esperada paraqualquer jogador i desviar da estratégia de equilíbrio é no máximo igual a:

M +L∑

k=1

δkvi +∞∑

k=L+1

δkui(a(i)).

Por outro lado se i não desviar, sua utilidade esperada é:

ui(a(j)) +L∑

k=1

δkui(a(j)) +∞∑

k=L+1

δkui(a(j)).

Note que or suposição temos que ui(a(j)) > ui(a(i)). Como ui(a(j)) > vi para todo i,podemos escolher L tal que M − ui(a(j)) < L(ui(a(j))− vi) para todo i ∈ N e j ∈ 0 ∪N .

Autor: Leandro Chaves Rêgo

Page 114: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.8. JOGOS REPETIDOS FINITAS VEZES 109

Podemos ainda escolher δ∗ próximo o suficiente de 1 tal que para todo δ > δ∗, i ∈ N ej ∈ 0 ∪N , temos

M +L∑

k=1

δkvi < ui(a(j)) +L∑

k=1

δkui(a(j)).

Portanto, para tais escolha de L e δ∗ não é vantajoso para nenhum jogador i desviar em umestado C(j). Suponha agora que estamos em um estado P (j, t), então a utilidade esperadapara qualquer jogador i = j desviar da estratégia de equilíbrio é no máximo igual a:

M +L∑

k=1

δkvi +∞∑

k=L+1

δkui(a(i)).

Por outro lado se i não desviar, sua utilidade esperada é:t−1∑k=0

δkui(p−j, bj(p−j)) +∞∑k=t

δkui(a(j)).

Como L+ 1 > t e ui(a(j)) > ui(a(i)), podemos escolher δ > δ∗ próximo o suficiente de 1 talque para todo δ > δ, i ∈ N e j ∈ 0 ∪N , temos

M +L∑

k=1

δkvi −t−1∑k=0

δkui(p−j, bj(p−j))

<

∞∑k=t

δkui(a(j))−∞∑

k=L+1

δkui(a(i)).

Como M > vi temos que não é vantajoso para o jogador i desviar em um estado P (j, t).Como j utiliza uma melhor resposta em um estado P (j, t) não é vantajoso para ele desviardesta estratégia.

8.8 Jogos Repetidos Finitas VezesVamos agora estudar jogos repetidos finitas vezes. Seja G = (N, (Ai)i∈N , (ui)i∈N), onde Ai écompacto e ui é uma função contínua e limitada em A = ×j∈NAj.

Definição 8.8.1 : A repetição finita de um jogo G é um jogo em forma extensiva cominformação perfeita e movimentos simultâneos (N,H, P, (u∗

i )i∈N), onde

• H = ∅ ∪ (∪Tt=1A

t), onde ∅ é a história inicial.

• P (h) = N para toda história não terminal, de forma que todos os jogadores se movemapós cada repetição do jogo G.

• u∗i é uma função utilidade em AT que estende a função utilidade ui. Vamos nos

restringir ao caso do critério do limite das médias, ou seja, assumiremos que u∗i (a) =

1T

∑Tt=1 ui(a

t), onde a = (a1, a2, . . . , aT ).

Autor: Leandro Chaves Rêgo

Page 115: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.8. JOGOS REPETIDOS FINITAS VEZES 110

Uma história a é terminal se, e somente se, a ∈ AT . Após qualquer história não terminal,cada jogador i escolhe uma ação em Ai. Portanto, como no caso infinito uma estratégia parao jogador i é uma função que associa uma ação em Ai para cada seqüência finita de perfisde estratégias de G. Este jogo é conhecido como a repetição do jogo G durante T períodos.

8.8.1 Equilíbrio de Nash

O argumento intuitivo por trás dos Teoremas de Folk para jogos repetidos infinitas vezesé que qualquer perfil de utilidades que seja desejável por todos os jogadores pode ser umequilíbrio de Nash se todos acreditam que quando se desviarem da trajetória de equilíbrioserão punidos pelos demais jogadores. No caso de jogos finitos, este argumento não pode seraplicado em todos os casos, pois sempre teremos que os jogadores devem jogar um equilíbriode Nash no último período de repetição T . Portanto, quando analisamos o período anteriorT −1 as ameaças de punição podem se tornar inacreditáveis. O próximo teorema mostra queno caso especial em que todos os equilíbrios de Nash o perfil de utilidades é igual ao perfilde utilidades minimax de G (como no caso do Dilema do Prisioneiro), então em qualquerperíodo os jogadores deverão utilizar um equilíbrio de Nash de G.

Teorema 8.8.2: Se o perfil de utilidades em qualquer equilíbrio de Nash de um jogo emforma normal G é o perfil (vi)i∈N de utilidades minimax de G, então para qualquer valorde T , todo equilíbrio de Nash do jogo G repetido T vezes gera uma trajetória de perfis deestratégias (a1, . . . , aT ) do jogo G com a propriedade que at é um equilíbrio de Nash de G,para todo t = 1, 2, . . . , T .

Prova: Seja s o perfil de estratégias do jogo repetido que gera a trajetória de equilíbrioa = (a1, . . . , aT ). Suponha que exista um período t tal que at não seja um equilíbrio de Nashde G. Então, existe i ∈ N tal que ui(a

t−i, ai) > ui(a

t). Considere a estratégia s′i do jogadori que difere de si apenas no fato que após a história (a1, a2, . . . , at−1) ela escolhe ai, e apósqualquer história h que se segue, ela escolhe uma ação melhor resposta para s−i(h), obtendoportanto uma utilidade pelo menos igual a utilidade minimax vi. A trajetória gerada por(s−i, s

′i) é uma história terminal b ∈ AT que é idêntica a a até o período t−1, ui(b

t) > ui(at),

e ui(br) ≥ vi = ui(a

r) para todo r ≥ t + 1. Portanto, jogador i prefere b a a, contradizendoa suposição que s é um equilíbrio de Nash do jogo repetido.

Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se o jogo Gpossuir um equilíbrio de Nash a∗ no qual a utilidade de algum jogador excede sua utilidademinimax, então este jogador pode ser punido no último período se ele tiver desviado nopenúltimo período e a estratégia que seria utilizada no último período fosse igual a a∗. Seesta punição não for suficiente, então existe L grande o suficiente tal que se a∗ for a estratégiaa ser jogada nos últimos L períodos, então qualquer desvio antes destas últimas L jogadaspode ser punido impondo um pagamento minimax ao jogador que desviar até o fim do jogo.O valor de L é independente da duração do jogo T . portanto para T grande o suficientepodemos obter como média das utilidades em um equilíbrio de Nash do jogo repetido T vezes

Autor: Leandro Chaves Rêgo

Page 116: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.8. JOGOS REPETIDOS FINITAS VEZES 111

qualquer perfil de utilidades possível e individualmente racional estrito. O próximo teoremailustra este fato.

Teorema 8.8.3: Se G = (N, (Ai), (ui)) tem um equilíbrio de Nash a′ no qual a utilidade dequalquer jogador i excede sua utilidade minimax vi, então para qualquer perfil de estratégiaa∗ de G individualmente racional estrito e qualquer ϵ > 0, existe um inteiro T ∗ tal que seT > T ∗ o jogo G repetido T vezes tem um equilíbrio de Nash no qual o pagamento de cadajogador i difere de ui(a

∗) por menos que ϵ.

Prova: Considere a estratégia do jogador i descrita pela seguinte máquina.

• Qi = Normt : 1 ≤ t ≤ T − L ∪ P (j) : j ∈ N ∪ Nash.

• q0i = Norm1.

• fi(Normt) = a∗i , fi(Nash) = a′i, fi(P (j)) = (p−j)i se j = i e fi(P (i)) = bi(p−i), ondebi(p−i) é uma melhor resposta para p−i em G.

• De Normt mude para Normt+1 exceto quando t = T −L, neste caso mude para Nash,ou quando apenas um jogador j desviou de a∗, neste caso mude para P (j).

• De P (j) permaneça em P (j) para todo j ∈ N , e de Nash permaneça em Nash.

Resta-nos especificar L. Um desvio só pode ser vantajoso em um dos estados Normt.Para impedir tal desvio requeremos que L seja grande o suficiente tal que maxai∈Ai

ui(a∗−i, ai)−

ui(a∗) ≤ L(ui(a

′)− vi) para todo i ∈ N . Finalmente, para obter um perfil de utilidades quedifere de ui(a

∗) por menos de ϵ, escolhemos T ∗ de forma que

|(T∗ − L)ui(a

∗) + Lui(a′)

T ∗ − ui(a∗)| < ϵ, ∀i ∈ N.

8.8.2 Equilíbrio de Subjogo Perfeito

Em qualquer equilíbrio de subjogo perfeito de um jogo repetido finitas vezes, o perfil deestratégias utilizado no último período após qualquer história (não apenas após a históriaque ocorre se os jogadores seguem suas estratégias) deve ser um equilíbrio de Nash de G.Portanto, a estratégia utilizada no teorema anterior não constitui um equilíbrio de subjogoperfeito. Na verdade nenhuma punição é possível se G tem um único equilíbrio de Nash.

Teorema 8.8.4: Se todos os equilíbrios de Nash de um jogo em forma normal G possuemum único perfil de utilidades, então para qualquer valor de T o perfil de estratégias escolhidoapós qualquer história em qualquer equilíbrio de subjogo perfeito do jogo G repetido T vezesé um equilíbrio de Nash de G.

Autor: Leandro Chaves Rêgo

Page 117: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.8. JOGOS REPETIDOS FINITAS VEZES 112

Prova: O perfil de estratégias utilizado em qualquer subjogo que começa no período T emqualquer equilíbrio de subjogo perfeito do jogo repetido T vezes deve ser um equilíbrio deNash de G. Portanto, a utilidade de qualquer jogador no último período é independente dahistória. Conseqüentemente, em qualquer subjogo que comece no período T − 1 temos queem qualquer equilíbrio de subjogo perfeito o perfil de estratégias utilizado em T − 1 deve serum equilíbrio de Nash de G. O restante da prova segue por indução.

No caso em que o jogo G possua mais de um equilíbrio de Nash que produzam diferentesperfis de utilidades, então podemos realizar punição em um equilíbrio de subjogo perfeito.Considere o seguinte exemplo:

Exemplo 8.8.5: Considere o jogo em forma normal a seguir:

C D EC 3,3 0,4 0,0D 4,0 1,1 0,0E 0,0 0,0 0,0

Existe um equilíbrio de subjogo perfeito deste jogo repetido T vezes no qual o perfilde estratégias (C,C) é utilizado em todos exceto nos últimos 3 períodos, nos quais o perfilutilizado é (D,D). No equilíbrio ambos jogadores utilizam a seguinte estratégia, escolha Cem qualquer período até o período T − 3 a não ser que D já tenha sido usada no passado,neste caso escolha E até o fim do jogo. Se C for utilizada por ambos até o período T − 3,escolha D nos últimos 3 períodos. Um jogador que desviar para D até o período T − 3 apósuma história que consiste somente de perfis (C,C) nos períodos anteriores ganhará 1 emutilidade neste período e perderá pelo menos 3 em utilidade já que o outro jogador escolheráE nos períodos seguintes. Observe que esta punição é justificada pois, (E,E) também éum equilíbrio de Nash de G. É interessante ressaltar que este jogo difere de um Dilema doPrisioneiro apenas pela inclusão de uma ação fracamente dominada para cada jogador.

O próximo teorema caracteriza o conjunto de perfis de utilidade que podem ser obtidosatravés de um equilíbrio de subjogo perfeito do jogo G repetido infinitas vezes para umagrande classe de jogos G.

Teorema 8.8.6: Seja a∗ um perfil de estratégias individualmente racionais estrito de G =(N, (Ai), (ui)). Assuma que (a) para cada i ∈ N existem dois equilíbrios de Nash de G quediferem na utilidade do jogador i e (b) existe uma coleção (a(i))i∈N de perfis de estratégiasindividualmente racionais estritos de G tal que para todo jogador i ∈ N , temos a∗ ≻i a(i) ea(j) ≻i a(i) para todo j ∈ N − i. Então, para todo ϵ > 0, existe um inteiro T ∗ tal que seT > T ∗ o jogo G repetido T vezes tem um equilíbrio de subjogo perfeito no qual a utilidadedo jogador i difere de ui(a

∗) por menos de ϵ para todo i ∈ N .

Prova: A prova formal é omitida, mas intuitivamente, o perfil de estratégias do jogo repetidoinfinitas vezes tem o seguinte formato. Existem três etapas. Durante as duas primeirasetapas os jogadores escolhem a∗ enquanto nenhum jogador desviar. Caso não haja desviosnas duas primeiras etapas, na terceira etapa os jogadores implementam uma seqüência de

Autor: Leandro Chaves Rêgo

Page 118: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

8.8. JOGOS REPETIDOS FINITAS VEZES 113

equilíbrios de Nash do jogo G para o qual a utilidade média de cada jogador é maior que apior utilidade do jogador em algum equilíbrio de Nash do jogo G. Desvios são punidos daseguinte maneira. Um desvio na primeira etapa é punido com os demais jogadores forçandoa utilidade minimax no jogador que desviou por um longo período e depois entrando em umafase de reconciliação como no caso de teorema de Folk Perfeito para o critério do desconto.Um desvio na segunda etapa é punido com os jogadores implementando no início da terceiraetapa o pior equilíbrio de Nash para o jogador que desviou. Como na terceira etapa, osjogadores só implementam equilíbrios de Nash não há incentivo a desvios.

Autor: Leandro Chaves Rêgo

Page 119: Leandro Chaves Rêgo, Ph.D. 2011 - de.ufpe.brleandro/AulasTeoriadosJogos2011-1.pdf · forma a obter consequências mais próximas possíveis de objetivos pré-estabelecidos dado conhecimento

Referências Bibliográficas

1. Myerson, R. (1997), “Game Theory - Analysis of Conflict” - Harvard University Press.

2. Osborne, M. e Rubinstein, A. (1994), “A Course in Game Theory”, The MIT press.

3. Osborne, M. (2003), “An Introduction to Game Theory”, Oxford University Press.Alguns capítulos estão disponíveis on-line emhttp://www.chass.utoronto.ca/∼osborne/igt/index.html.

4. Osborne, M. e Rubinstein, A. (1990), “Bargaining and Markets”, Academic Press.Disponível on-line em http://ww2.economics.utoronto.ca/osborne/bm/.

5. Rubinstein, A. (2006), “Lecture Notes in Microeconomic Theory: The Economic Agent”,Princeton University Press. Disponível on-line em http://press.princeton.edu/rubinstein/.

6. Kreps, D. (1988) “Notes on the Theory of Choice”, Underground Classics in Economics.

7. Campello de Souza, F. M. (2007), “Decisões Racionais em Situações de Incerteza”, 2a.edição.

8. Joseph Halpern e Leandro Chaves Rêgo, “Extensive Games with Possibly UnawarePlayers”, publicado nos anais da AAMAS’06 - 5th International Joint Conference onAutonomous Agents and Multiagent Systems, pp. 744–751, Maio/2006, Japão. Versãocompleta disponível em http://arxiv.org/PS_cache/arxiv/pdf/0704/0704.2014v1.pdf .

114