-
Palavras-Chave: escolha, logit, probit, transporte areo.
Key words: choice, logit, probit, air transportation.
Recommended Citation
Abstract
This paper provides a review on discrete choice theory with emphasis on the approach provided by Ken Train (2003) in
Discrete Choice Methods with Simulation. General theoretical aspects of this approach will be presented along with the
characteristics of the main models, Logit and Probit. In the end, an application of a discrete choice model in passenger air
transportation, based on the Boguslaski, Ito and Lee study, Entry patterns in the Southwest Airlines route system, published in
Review of Industrial Organization in 2004, will be described.
Ciarlini, M. (2008) Modelos de escolha discreta e sua aplicao ao transporte areo. Journal of Transport Literature, vol. 2, n. 2,
pp. 42-65.
Marina Ciarlini*
Resumo
O presente trabalho visa promover uma breve resenha da rea de teoria da escolha discreta, com nfase na apresentao
efetuada por Ken Train (2003), em seu livro Discrete Choice Methods with Simulation. Aspectos tericos gerais da abordagem
sero apresentados, alm das caractersticas dos principais modelos, Logit e Probit. Ao final do trabalho, ser descrita uma
aplicao ao transporte areo de passageiros, baseada no estudo de Boguslaski, Ito e Lee, Entry patterns in the Southwest
Airlines route system, publicado na Review of Industrial Organization em 2004.
This paper is downloadable at www.transport-literature.org/open-access.
JTL|RELIT is a fully electronic, peer-reviewed, open access, international journal focused on emerging transport markets and
published by BPTS - Brazilian Transport Planning Society. Website www.transport-literature.org. ISSN 2238-1031.
* Email: [email protected].
Reviews & Essays
Journal of Transport Literature
Submitted 4 Mar 2008; received in revised form 20 Apr 2008; accepted 9 May 2008
Vol. 2, n. 2, pp. 42-65, Jul. 2008
Modelos de escolha discreta e sua aplicao ao transporte areo
[Discrete-choice models and their application to air transportation]
Instituto Tecnolgico de Aeronutica (ITA), Brazil
B T P SB T P SB T P SB T P S
Brazilian Transportation Planning Society
www.transport-literature.org
JTL|RELITJTL|RELITJTL|RELITJTL|RELIT
ISSN 2238-1031
-
1. Introduo
Modelos de escolha discreta descrevem escolhas de indivduos, os chamados tomadores de
deciso, entre alternativas ou opes. Esses tomadores de deciso podem ser pessoas,
famlias, empresas ou qualquer outro indivduo capaz de tomar uma deciso. As alternativas
podem ser representadas por diferentes produtos, tipos de aes ou qualquer outra opo ou
item sobre o qual uma escolha deve ser feita.
Para que um modelo de escolha discreta seja adequado, a lista de alternativas, ou choice set,
deve exibir trs caractersticas. Primeiramente, as alternativas devem ser mutuamente
exclusivas entre si, ou seja, escolher uma alternativa necessariamente implica em abrir mo
das outras. Isso quer dizer que o tomador de deciso s pode escolher uma alternativa entre as
opes possveis. Outra caracterstica que a lista de alternativas deve ser exaustiva, no
sentido em que todas as alternativas possveis esto includas. Isto , frente a uma lista com
todas as opes, o indivduo em questo necessariamente vai escolher uma delas. A ltima
caracterstica desse tipo de modelo que o nmero de alternativas deve ser finito, as
alternativas podem ser contadas.
As duas primeiras caractersticas no so restritivas, j que uma definio apropriada das
alternativas pode, quase sempre, garantir que estas so mutuamente exclusivas e que a lista
exaustiva. Por exemplo, suponha que duas alternativas no mutuamente exclusivas A e B, a
princpio, um indivduo poderia escolher as duas. Uma maneira que resolver o problema
simplesmente dizer que a lista de alternativas nesse caso : s A, s B e A e B. De
modo similar, quando uma lista de alternativas no exaustiva e o tomador de deciso pode
escolher uma alternativa que no est descrita, uma opo de soluo incluir na lista uma
alternativa do tipo nenhuma das alternativas anteriores. Dessa maneira, a lista passa a ser
claramente exaustiva.
Geralmente, o pesquisador ou modelador consegue satisfazer essas condies com pequenos
ajustes. Porm, a situao vai sempre depender dos objetivos da pesquisa e dos dados
disponveis.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 43
-
2. Modelos de Escolha Discreta x Modelos de Regresso
Como descrito no item anterior, as condies de exclusividade mtua e exaustividade podem
ser satisfeitas de diversas maneiras. Por outro lado, a terceira condio, ou seja, que o nmero
de alternativas deve ser finito, realmente restritiva. No toa que essa condio a
caracterstica que define modelos de escolha discreta e que os diferencia dos modelos de
regresso.
Nos modelos de regresso, a varivel dependente, o que se est querendo determinar,
apresenta um carter contnuo, de modo que h um nmero infinito de resultados possveis.
Uma linha de estudiosos costuma se referir aos modelos de regresso como aqueles que
remetem pergunta quanto?, enquanto os modelos de escolha discreta fariam referncia a
qual?. Porm, um exemplo bem simples pode mostrar que esse tipo de explicao ilustrativa
no funciona em todos os casos. Numa pesquisa de nmero de carros por famlia, a lista de
alternativas pode ser facilmente reduzida a 0, 1 e 2 ou mais carros. Nesse caso, ento, uma
pergunta de quanto? se reduz a apenas 3 alternativas mutuamente exclusivas, exaustivas e,
claro, finitas. Consideradas desse modo, na maioria dos casos, modelos de escolha discreta
podem sim ser aplicados mesmo em situaes de quanto?.
Usar um ou outro modelo vai depender, principalmente, das especificaes consideradas pelo
modelador. Um modelo de regresso pode ser considerado mais natural e fcil de lidar, por
outro lado, h situaes em que s um modelo de escolha discreta pode ser adequado. O
pesquisador ou modelador precisa considerar os objetivos da pesquisa e as limitaes de cada
mtodo para decidir se aplica ou no um modelo de escolha discreta.
3. Derivao das Probabilidades de Escolha
Para a construo de modelos de escolha discreta, assume-se que o tomador de deciso tem
um comportamento de maximizao da utilidade, ou seja, que ele escolhe a alternativa que lhe
traz um maior ganho ou satisfao pessoal. Nesse sentido, entende-se que o indivduo que faz
a escolha a faz seguindo sempre o princpio da racionalidade.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 44
-
Esse tipo de modelo pode ser descrito da seguinte forma. Um tomador de deciso n deve
escolher entre J alternativas. Ele vai obter certo nvel de utilidade (ou satisfao ou lucro) de
cada alternativa que se apresenta. A utilidade que o tomador de deciso n recebe de uma dada
alternativa j Unj, onde j = 1, ..., J. Essa utilidade conhecida pelo indivduo, porm, no pelo
pesquisador ou modelador. O tomador de deciso escolhe ento uma alternativa i que a que
lhe traz a maior utilidade. A situao, do ponto de vista do tomador de deciso pode ser
melhor visualizada na Figura 1.
Figura 1: Tomador de deciso n, alternativas e suas utilidades (Fonte: da autora)
O modelo de comportamento ento: escolha a alternativa i se e somente se Uni > Unj para
qualquer j i.
Considere agora o pesquisador. Ele no conhece a utilidade do tomador de deciso, ele s
observa alguns atributos das alternativas (xnj para qualquer j) e alguns atributos do tomador de
deciso (sn). A partir disso, ele pode montar uma funo que relaciona esses fatores
observveis com a utilidade: Vnj = V(xnj , sn), que a parcela representvel da utilidade.
Geralmente, V depende de parmetros que so desconhecidos do especialista e so, por isso,
estimados estatisticamente.
J que existem esses aspectos no-observveis, razovel pensar que Vnj Unj. Por isso, a
utilidade pode ser decomposta da seguinte forma: Unj = Vnj + nj, onde nj a parcela que
captura os fatores que afetam a utilidade, mas no so includos em Vnj. Essa parcela ento
definida como a diferena entre a utilidade verdadeira e a estimada. A Figura 2, a seguir,
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 45
-
ilustra essa diferena entre o ponto de vista do tomador de deciso e o que o pesquisador
enxerga no processo.
Figura 2: Tomador de deciso x Pesquisador ou modelador (nj). (Fonte: da autora)
Por outro lado, nj tambm no conhecido e, por isso, esses termos so tratados como
aleatrios. A funo densidade f(nj) desse vetor aleatrio n = que vai
diferenciar os diversos modelos de escolha discreta.
Com essa densidade, o modelador pode estimar probabilidades de escolha do tomador de
deciso. Ento, considerando o princpio da racionalidade, como o indivduo escolhe a
alternativa que lhe traz a maior utilidade, a probabilidade de uma alternativa i ser a escolhida
:
Equao 1: Probabilidade de escolha de uma alternativa i (Fonte: Train, 2003)
Essa probabilidade uma distribuio cumulativa, ou seja, a probabilidade de cada termo
aleatrio nj - ni estar abaixo da utilidade observvel Vni Vnj. Usando a densidade f(nj), a
probabilidade pode ser reescrita como:
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 46
-
Equao 2: Probabilidade de escolha de uma alternativa i dada a distribuio f(nj)
(Fonte: Train, 2003)
Onde I(.) o indicador da funo, sendo igual a 1 quando a expresso entre parnteses
verdadeira e 0 caso contrrio.
O significado das probabilidades de escolha mais sutil e mais revelador do que, a princpio,
se possa imaginar. Um exemplo sugerido por Train (2003) pode ilustrar bem isso. Considere a
escolha do modal de transporte para ir ao trabalho. As opes seriam carro ou nibus. O
pesquisador identifica o custo e o tempo da viagem como fatores que contribuem nessa
deciso. Porm, tambm h outros fatores que podem afetar a utilidade de uma pessoa e
influir na sua escolha. O pesquisador enxerga a seguinte formulao para o problema:
, onde Tc e Mc so, respectivamente o tempo e o custo do modal carro
e Tb e Mb do nibus. Os coeficientes e so conhecidos ou estimados.
Suponha que, considerando e e os valores de tempo de custo em cada caso, o resultado do
modelo d: Vc = 4 e Vb = 3. Isso quer dizer que, utilizando s os fatores observveis, o carro
melhor do que o nibus pela diferena de 1 unidade. Porm, isso no quer dizer,
necessariamente, que o indivduo escolhe o carro, j que existem outros fatores que influem
na deciso e que no foram descritos no modelo. Ento, a probabilidade de uma pessoa
escolher o nibus ao invs do carro a probabilidade de os fatores no-observveis do nibus
serem suficientemente melhores que os do carro, de modo a compensar a vantagem do carro
nos fatores observveis.
Como visto no exemplo, os fatores no-observveis da utilidade podem ser decisivos para o
modelo. Ento, a questo que fica para ser discutida adiante qual deve ser a distribuio de
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 47
-
n? A distribuio dada a essa densidade afeta a interpretao das probabilidades de escolha
pelo pesquisador.
4. Modelos Especficos
Como explicitado anteriormente, diferentes modelos de escolha so derivados de diferentes
especificaes da densidade de fatores no-observveis: f(n).
O modelo Logit o mais utilizado. Ele derivado a partir da idia de que os fatores no-
observveis no so correlacionados, ou seja, o erro de cada alternativa independente do das
outras, mas tm a mesma varincia para todas as alternativas. Esse modelo ser estudado no
prximo captulo deste material.
O problema que assumir essa independncia pode ser um problema em algumas situaes, j
que os fatores no-observveis de uma alternativa podem ser similares aos de outra. Por
exemplo, uma pessoa que no gosta de viajar de nibus por este ser muito lotado, pode ter a
mesma reao a viagem de metr. Para evitar essa caracterstica do modelo Logit, alguns
outros modelos acabaram sendo desenvolvidos.
Os modelos GEV (Generalized Extreme-Value) permitem uma correlao entre os fatores
no-observveis e acabam convergindo para um Logit se essa correlao zero.
J os modelos Probit, que sero estudados mais adiante, so baseados na idia de que os
fatores no-observveis tm distribuio normal. utilizada uma matriz de covarincia em
que qualquer padro de correlao pode ser descrito. Sua nica limitao o fato de ter que
ser uma distribuio normal.
Uma juno das idias de diversos modelos, o Mixed Logit permite que o fator erro assuma
qualquer distribuio. Isso possvel, pois esses fatores so decompostos em uma parcela que
representa todas as correlaes e uma parcela independente. A primeira parte pode ento,
assumir qualquer distribuio.
Outros modelos, geralmente obtidos por uma combinao de conceitos, j foram propostos
em trabalhos. Entendendo a derivao e os objetivos dos modelos de comportamento, o
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 48
-
pesquisador ou modelador pode construir um modelo combinado que ideal para cada
situao.
5. Caractersticas de Modelos de Escolha
Alguns aspectos do processo comportamental de deciso afetam a especificao e a estimativa
de modelos de escolha discreta. Esses aspectos podem ser resumidos em duas afirmativas:
S diferenas na utilidade importam e A escala da utilidade irrelevante. As principais
caractersticas dessas propriedades so discutidas a seguir.
5.1 S diferenas na utilidade importam
O valor absoluto da utilidade irrelevante tanto para o comportamento do tomador de
deciso, quanto para a elaborao do modelo. Se uma constante for adicionada utilidade de
todas as alternativas, a alternativa com a maior utilidade no muda. O tomador de deciso vai
escolher a mesma alternativa com Unj para qualquer j, mesmo que esta esteja somada a uma
constante qualquer k (Unj +k). Uma frase que explica bem essa idia : Uma mar alta
levanta todos os barcos.
Na perspectiva do pesquisador, o valor absoluto da utilidade tambm no relevante para o
modelo. A probabilidade de escolha (Pni = Prob(Uni Unj > 0 para qualquer j i)) e a parcela
no-observvel da utilidade (Pni = Prob(nj - ni < Vni Vnj para qualquer j i)) s dependem
da diferena entre utilidades, em qualquer caso.
Esse fato pode ter diversas implicaes na elaborao de modelos de escolha discreta.
Normalmente, pode ter como conseqncia o fato de que s podero ser estimados parmetros
que capturam diferenas entre alternativas.
5.2 A escala da utilidade irrelevante
Somar uma constante utilidade de todas as alternativas no muda a escolha do tomador de
deciso e, do mesmo modo, multiplicar a utilidade de cada alternativa por uma constante
tambm no tem impacto na escolha. A alternativa com a maior utilidade a mesma, no
importa qual seja a escala da utilidade. O modelo (1) Unj = Vnj + nj equivalente a (2) Unj =
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 49
-
Vnj + nj para qualquer > 0. O nico cuidado que deve ser tomado que, para considerar
esse fato, o modelador deve normalizar a escala da utilidade.
O modo mais comum de normalizar a escala da utilidade normalizando a varincia da
parcela do erro. Isso possvel porque a escala da utilidade e a varincia dos erros esto
interligadas. Quando a utilidade multiplicada por , a varincia de cada nj muda na
proporo 2: Var(nj) = 2 Var(nj).
6. Agregao
Os conceitos vistos at agora dizem respeito a escolhas individuais dos tomadores de deciso.
Porm, o pesquisador geralmente est interessado em alguma medida agregada, como uma
probabilidade mdia de uma populao ou a reao esperada para a mudana de algum fator.
Em modelos de regresso linear, estimativas de valores agregados das variveis dependentes
so obtidos com a insero de valores agregados das variveis explicativas aos modelos,
como por exemplo, a mdia de valores obtidos.
Modelos de escolha discreta no so lineares em relao s variveis independentes e,
conseqentemente, apenas inserir valores agregados dessas variveis no modelo no vai
resultar numa estimativa correta da probabilidade mdia ou resposta esperada. Esse conceito
pode ser facilmente visualizado na Figura 3.
No grfico em questo, podem ser vistas as probabilidades de escolha de uma alternativa em
particular de dois indivduos, com a parcela observvel de suas utilidades sendo a e b. A
probabilidade mdia seria ento a mdia das probabilidades para os dois indivduos, ou seja,
(PA + PB) / 2. A utilidade representvel mdia (a + b) / 2, e a probabilidade avaliada neste
ponto o ponto correspondente no eixo y. Como pode ser visto na Figura 3, nesse caso, a
probabilidade mdia maior que a probabilidade avaliada na mdia da utilidade observvel.
Geralmente o que acontece que a probabilidade correspondente mdia da utilidade
observvel subestima a probabilidade mdia quando as probabilidades de escolha dos
indivduos so baixas e a superestima quando estas so altas.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 50
-
Estimar a resposta mdia calculando derivadas ou elasticidades na mdia das variveis
independentes tambm causa problemas.
Figura 3: Diferena entre probabilidade mdia e probabilidade calculada na utilidade
representvel mdia (Fonte: Train, 2003)
H dois modos consistentes de determinar valores agregados em modelos de escolha discreta:
enumerao da amostra e segmentao.
6.1 Enumerao da Amostra
O mtodo mais utilizado para agregao a enumerao da amostra, que consiste na soma ou
mdia das probabilidades de cada tomador de deciso sobre os tomadores de deciso.
Considere um modelo de escolha discreta que d a probabilidade Pni que o tomador de deciso
n vai escolher a alternativa i da lista de alternativas. Suponha que uma amostra de N
tomadores de deciso (n = 1, ..., N) retirada da populao para a qual a medida agregada est
sendo calculada. Cada tomador de deciso n da amostra tem um peso wn associado a ele, o
qual representa o nmero de tomadores de deciso similares a ele na populao.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 51
-
Uma estimativa consistente do nmero total de tomadores de deciso na populao que
escolhem a alternativa i simplesmente a soma ponderada das probabilidades individuais:
n
nini PwN .
A probabilidade mdia, que o market share estimado NN i / .
6.2 Segmentao
Quando o nmero de variveis independentes pequeno e essas variveis assumem poucos
valores, possvel estimar valores agregados sem utilizar uma amostra de tomadores de
deciso.
Esse tipo de agregao pode ser melhor explicado com um exemplo. Considere um modelo
com apenas duas variveis representando a utilidade observvel de cada alternativa: nvel de
escolaridade e gnero. Suponha que a varivel de escolaridade seja composta por quatro
categorias: ensino mdio incompleto, ensino mdio completo, ensino superior interrompido e
ensino superior completo. Ento, o nmero de diferentes tomadores de deciso, no caso,
chamados de segmentos oito: os quatro nveis de escolaridade para cada um dos dois
gneros. As probabilidades de escolha variam somente nesses oito segmentos e no
individualmente em cada segmento.
Se h dados sobre o nmero de indivduos em cada segmento, resultados agregados das
variveis podem ser estimados pelo clculo da probabilidade de escolha de cada segmento e
da soma ponderada dessas probabilidades. Da, o nmero estimado de indivduos que
escolhem a alternativa i :
8
1
s
sisi PwN .
Onde Psi a probabilidade de um tomador de deciso do segmento s escolher a alternativa i e
ws o nmero de tomadores de deciso no segmento s.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 52
-
7. Modelo Logit
7.1 Introduo
Considerado o modelo de escolha discreta de mais fcil utilizao, o modelo Logit o mais
comumente aplicado. Essa popularidade devida, principalmente, ao fato de a frmula das
probabilidades de escolha tomar uma forma fechada e ser de fcil interpretao.
Considerando os conceitos mostrados no captulo anterior mais uma distribuio especfica
para a parcela no-observvel da utilidade, tem-se a derivao do modelo Logit.
O modelo obtido assumindo que cada nj independentemente, identicamente distribudo
como valor extremo. Essa distribuio tambm chamada de Gumbel e valor extremo tipo I.
A densidade para cada componente no-observvel da utilidade e sua respectiva distribuio
cumulativa so:
e
Equao 3: Funo densidade e distribuio cumulativa da parcela no-observvel da
utilidade no modelo Logit (Fonte: Train, 2003)
No entanto, assumir a independncia dos erros pode tornar o modelo muito restritivo. E foi
exatamente essa restrio que acabou levando ao desenvolvimento de outros tipos de
modelos, como explicitado no captulo I, os quais tentam evitar essa independncia de
incorporar, de alguma maneira, a correlao entre os erros.
importante ressaltar que essa independncia pode no ser to restritiva quanto parece a
princpio, j que, de certo modo, essa propriedade pode ser interpretada como um resultado
natural e esperado de um modelo bem construdo.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 53
-
Como foi estudado, o fator nj definido como a diferena entre a utilidade que o tomador de
deciso efetivamente obtm (Unj) e a representao da utilidade que o pesquisador desenvolve
usando as variveis observveis (Vnj). De modo que nj e sua distribuio no dependem da
especificao feita pelo modelador da utilidade representvel, ou seja, no depende da
situao da escolha. Sob esse ponto de vista, assumir que os erros so independentes pode ser
apenas uma conseqncia.
Se for assumida a independncia, o erro de uma alternativa no d nenhuma informao ao
modelador sobre o erro de outra. Do mesmo modo, pode ser que Vnj tenha sido
suficientemente especificado e a parcela no-observvel da utilidade apenas white noise.
Ou seja, o maior objetivo de um pesquisador seria especificar to bem a utilidade que um
modelo Logit se tornaria apropriado, ou mesmo, ideal.
Se, por acaso, o pesquisador identificar que a parcela no-observvel da utilidade
correlacionada entre alternativas, ele tem trs opes:
Usar um modelo diferente que permita erros correlacionados;
Remodelar a utilidade representvel de modo que a fonte da correlao seja capturada
explicitamente e os erros restantes sejam independentes; ou
Usar o modelo Logit do jeito que est, porm considerando-o apenas como uma
aproximao.
A viabilidade da ltima opo depende, obviamente, dos objetivos da pesquisa.
7.2 Probabilidades de Escolha
Como os s so independentes, a distribuio cumulativa para todos i j apenas o produto
das distribuies cumulativas individuais. Por isso, utilizando a funo densidade Gumbel ou
valor extremo tipo I, a formulao da probabilidade de escolha de modelos de escolha discreta
(Equao 1) e algumas manipulaes algbricas, tem-se a expresso fechada que define o
modelo Logit:
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 54
-
Equao 4: Probabilidade de escolha segundo o modelo Logit (Fonte: Train, 2003)
7.3 Propriedades do Modelo
As probabilidades do modelo Logit apresentam diversas propriedades importantes:
Pni necessariamente entre 0 e 1.
Se Vni aumenta e Vnj se mantm constante, Pni se aproxima de 1.
Pni nunca exatamente zero. Se no h chance de a alternativa ser escolhida, esta deve
ser retirada da lista para que no haja problemas com o modelo.
Pni s exatamente 1 quando s h uma alternativa.
O denominador da equao de probabilidade mostra que a soma das probabilidades de
todas as alternativas de escolha 1.
Relao entre a probabilidade Logit e a utilidade representvel em forma de S.
Essa ltima propriedade pode ser melhor observada na Figura 4, a seguir. Essa forma gera
implicaes no impacto de mudanas em variveis independentes no modelo. Se a utilidade
representvel de uma alternativa muito baixa comparada com outras alternativas, um
pequeno aumento na utilidade desta tem pouco efeito sobre sua probabilidade de escolha,ou
seja, as outras alternativas ainda so suficientemente melhores e essa pequena melhora no
ajuda muito. Algo similar acontece se uma alternativa j bastante superior s outras.
O ponto em que um aumento na utilidade representvel tem maior efeito na probabilidade de
escolha perto de 0,5, ou seja, quando a alternativa tem 50% de chance de ser escolhida.
Nesse caso, uma pequena melhora induz uma representativa mudana nas escolhas, levando a
um grande aumento na probabilidade.
Um exemplo disso o investimento em servios de nibus. Imagine que melhorar o servio
em reas onde este to escasso que poucos passageiros utilizam seria pouco eficiente, ao
mesmo tempo, o mesmo investimento em reas em que o servio suficientemente bom que a
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 55
-
parcela de usurios significativa surtiria maior efeito (a no ser que o servio j fosse to
bom que quase todos j utilizassem).
Figura 4: Grfico da curva Logit (Fonte: Train, 2003)
7.4 Poder e limitaes do modelo
Neste item ser discutido o poder de modelos Logit, assim como seus limites. A
aplicabilidade do modelo em diferentes casos ser mostrada para cada um dos trs tpicos:
variao de preferncias, padres de substituio e dados em painel.
7.4.1 Variao de Preferncias
O valor ou importncia que tomadores de deciso colocam em cada atributo das alternativas
varia, geralmente, de acordo com os tomadores de deciso. Gostos e preferncias podem
variar mesmo por razes que no so relacionadas a uma caracterstica observvel, como
situao socioeconmica, por exemplo, mas simplesmente porque diferentes pessoas so
diferentes.
Modelos Logit podem capturar variaes de preferncias, porm com limitaes.
Particularmente, gostos que variam sistematicamente de acordo com as variveis observveis
podem ser incorporados ao modelo, no entanto, preferncias que variam de acordo com
variveis no-observveis ou de modo aleatrio no podem ser representadas.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 56
-
Um exemplo disso pode ser um modelo de escolha de marcas de carros. A princpio se
considera que a utilidade do indivduo depende puramente do espao disponvel no veculo e
de seu preo. Porm, no decorrer da modelagem percebe-se que o tamanho do carro
dependente de uma varivel nmero de membros da famlia e o preo est relacionado renda
do tomador de deciso. At a, tudo bem, o modelo Logit consegue incorporar essas novas
variveis, desde que elas sejam totalmente conhecidas. Ou seja, para que o modelo funcione,
essas novas variveis no podem ter parcelas no-observveis ou erros associados a elas. Se
essas parcelas no-observveis existirem, os erros estaro presentes em todas as parcelas do
modelo e por isso a nova parcela no-observvel resultante no atender ao pressuposto de ser
independentemente, identicamente distribuda.
7.4.2 Padres de Substituio
Quando os atributos de uma alternativa melhoram, a probabilidade desta ser escolhida
aumenta. Isso fcil de perceber, j que alguns indivduos que escolheriam originalmente
outra alternativa, agora vo escolher esta.
Como a soma das probabilidades de todas as alternativas 1, um aumento na probabilidade de
uma alternativa necessariamente causa uma queda na probabilidade das outras. Esse padro de
substituio entre alternativas gera importantes implicaes.
O modelo Logit s lida com um tipo de padro de substituio entre alternativas. Se, na
realidade, o padro ocorrer desse modo, ento o modelo Logit apropriado, caso contrrio,
no.
Um exemplo bastante conhecido que pode mostrar como o padro de substituio do
modelo Logit o problema do nibus vermelho / nibus azul:
Numa situao inicial, o passageiro tem duas opes de modais para seu
deslocamento: carro ou nibus azul. Por simplicidade, assumido que as
probabilidades de escolha so as mesmas: 50-50% e, conseqentemente, a razo entre
as probabilidades 1.
Agora suponha que um nibus vermelho passa a ser uma terceira opo. Como, para o
modelo Logit, a razo entre as probabilidades no muda (j que depende unicamente
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 57
-
das duas alternativas sendo comparadas), esta continua sendo 1 e, portanto, as
probabilidades de escolha de cada modal continuam sendo iguais: s que agora 33,3%
para cada uma das trs alternativas.
O problema que, se pensarmos melhor no exemplo, podemos perceber que como o
nibus azul tm as mesmas caractersticas que o nibus vermelho e ambos tm
caractersticas diferentes das do modal carro, para um caso real, seria muito mais
natural: Pcarro = 50% e Povermelho = Poazul = 25%.
Esse tipo de padro de substituio, o modelo Logit no consegue assimilar.
7.4.3 Dados em Painel
Em pesquisas de mercado, os entrevistados geralmente so confrontados com sries de
questes hipotticas, chamadas de experimentos de preferncia declarada. Nesses casos, em
cada experincia, uma lista de diferentes alternativas de produtos com diferentes atributos
descrita e o entrevistado deve responder qual produto ele escolheria.
Ento, outras sries dessas questes so repetidas, com variao nos atributos dos produtos
para determinar qual a relao dessa variao com a mudana de escolha. O pesquisador
analisa essa seqncia de escolhas de cada entrevistado. Os dados que representam escolhas
repetidas desse tipo so chamados de dados em painel.
Se os fatores no-observveis que afetam as escolhas dos tomadores de deciso so
independentes entre as escolhas repetidas, o modelo Logit pode ser usado para examinar
dados em painel da mesma maneira como se estes fossem dados cross-section.
No entanto, a dinmica associada com fatores no-observveis no pode ser estudada, j que
no modelo Logit, os fatores no-observveis so assumidamente no relacionados.
8. Modelo Probit
8.1 Introduo
Como visto no item anterior, o modelo Logit limitado em trs importantes pontos. Ele no
permite a representao de variao de preferncia aleatria, apresenta padres de
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 58
-
substituio restritivos, por causa da propriedade de independncia de alternativas irrelevantes
e no deve ser usado para dados em painel quando fatores esto correlacionados no tempo
para cada tomador de deciso.
O modelo Probit, pode lidar com esses trs pontos. Sua nica limitao que ele requer uma
distribuio normal para todos os componentes no-observveis da utilidade. Na maioria das
situaes, a distribuio normal gera uma representao adequada de componentes aleatrios.
No entanto, o problema que, em alguns casos, a distribuio normal inadequada e pode
levar a previses erradas.
Um exemplo disso o coeficiente de preo de um determinado modelo. Como a distribuio
normal tem densidade dos dois lados do zero, o modelo necessariamente implica que alguns
indivduos teriam um coeficiente de preo positivo, o que quer dizer que algumas pessoas
teriam mais chance de escolher uma alternativa com preo maior, o que irreal.
8.2 Funo densidade de fatores no-observveis e probabilidades de escolha
Assumindo que n tem distribuio normal, com um vetor mdia zero e uma matriz de
covarincia (a qual depende de variveis relacionadas ao tomador de deciso), a densidade
de n :
Equao 5: Funo densidade da parcela no-observvel da utilidade no modelo Probit
(Fonte: Train, 2003)
Da, sabe-se ento, que a probabilidade de escolha :
Equao 6: Probabilidade de escolha segundo o modelo Probit (Fonte: Train, 2003)
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 59
-
Onde I(.) o indicador da funo, sendo igual a 1 quando a expresso entre parnteses
verdadeira e 0 caso contrrio e a integral deve ser resolvida para todos os valores de n.
A diferena principal da probabilidade de escolha do modelo Probit para a do modelo Logit
o fato de que, ao contrrio do Logit, no modelo Probit, a integral no assume uma forma
fechada, ou seja, uma frmula em que s substituir valores de variveis. A integral deve ser
resolvida por simulao para cada caso.
8.3 Identificao
Como descrito anteriormente, a escala da utilidade irrelevante, j que uma constante pode
ser adicionada s utilidades de todas as alternativas sem alterar qual a que tem a maior
utilidade. Similarmente, as utilidades tambm podem ser multiplicadas por uma constante
positiva sem que mude a alternativa com maior utilidade.
No modelo Logit, a normalizao da escala ocorre automaticamente por causa da distribuio
que assumida para os termos no-observveis. Por isso, a normalizao no precisa ser
considerada explicitamente para esse modelo. Em modelos Probit, no entanto, a normalizao
de escala e valor no ocorre automaticamente e, por isso, o modelador deve normalizar o
modelo diretamente.
A normalizao do modelo relacionada identificao de parmetros. Um parmetro
considerado identificado se este pode ser estimado e no-identificado, caso contrrio. Um
exemplo de um parmetro no-identificado k: Unj = Vnj + k + n . O modelador pode
escrever a utilidade dessa maneira e pode querer estimar o valor de k para obter uma escala
precisa da utilidade, porm, fazer isso seria impossvel.
Essa impossibilidade devida ao fato de que o comportamento do tomador de deciso
independe de k e por isso seu valor nunca poder ser estimado a partir da anlise das escolhas
dos indivduos. De modo mais direto, parmetros que no afetam a escolha de tomadores de
deciso no podem ser estimados e so, portanto, no-identificados.
Se o modelo normalizado, esses parmetros desaparecem. A dificuldade surge porque nem
sempre bvio quais parmetros so esses. No exemplo anterior, o fato de que k no-
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 60
-
identificado bastante bvio. J em muitos outros casos, isso pode ser diferente. Segundo
Bunch e Kitamura (1989), os modelos Probit de diversos artigos publicados no so
normalizados e contm parmetros no-identificados. O fato de que nem os autores e nem os
revisores desses artigos perceberam isso atesta que o assunto realmente complicado.
9. Aplicao ao Transporte Areo: O Problema de Escolha da Southwest
Airlines
9.1 Introduo
O trabalho Entry patterns in the Southwest Airlines route system dos autores Charles
Boguslaski, Harumi Ito e Darin Lee prope um modelo Probit que determina a entrada da
Southwest Airlines em pares de cidades usando dados de 1990-2000.
Alm de quantificar as caractersticas do mercado que influenciaram nas decises de entrada
da Southwest, os autores encontram evidncias de que as estratgias de entrada da empresa
mudaram significativamente durante a dcada em estudo. Baseados nos resultados do modelo,
os autores tambm estimam as conseqncias das emendas Wright e Shelby, as quais limitam
os mercados que a empresa pode servir de e para o aeroporto de Dallas Love Field. E ainda,
identificam os mercados em que h maior chance de entrada pela empresa e quais empresas
estariam mais vulnerveis expanso futura da Southwest.
9.2 Southwest Airlines
O crescimento de companhias low-cost considerado como o fato mais importante na
indstria de transporte areo domstico nos Estados Unidos nas ltimas dcadas. Nesse
contexto, notvel o crescimento da Southwest Airlines. A Figura 5 mostra o crescimento
vertiginoso da companhia entre 1990-2000, perodo em que mais que dobrou seu market
share. Na Figura 5, ainda pode ser visto que, com exceo da Delta Airlines, as outras trs
maiores companhias no mercado domstico ou tiveram queda de market share, ou
praticamente no tiveram crescimento.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 61
-
Figura 5: Grfico do market share das 5 maiores empresas areas no mercado domstico
norte-americano entre 1990-2000 (fonte: dados Boguslaski et al., 2004)
9.3 Modelo Proposto
O objetivo do modelo identificar os fatores que influenciaram as decises de entrada da
Southwest na dcada de 90. Com esse propsito, so estimados modelos Probit usando dados
cross-section.
A unidade de observao considerada um mercado de par de cidades no-direcional, ou seja,
o modelo considera que:
Passageiros esto no mesmo mercado, sem importar em que direo eles viajam (ex.
passageiros que viajam de Boston a Los Angeles so considerados pertencentes ao
mesmo mercado que os que viajam de Los Angeles a Boston).
Aeroportos da mesma rea metropolitana podem substituir uns aos outros. Por isso so
considerados pares de cidades e no pares de aeroportos.
Market share domstico (passageiros)
14,9
7
16,1
6
8
10
12
14
16
18
1988 1990 1992 1994 1996 1998 2000 2002
%
Southwest
American
Delta
United
US Airways
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 62
-
9.3.1 Conceito do Modelo
A premissa bsica do modelo emprico que a Southwest escolhe entrar em um mercado
quando espera lucros ps-entrada positivos. Ento, sendo Y* a varivel latente que mede a
lucratividade ps-entrada, Y* relacionado ao vetor de caractersticas observveis do
mercado, X, da seguinte maneira: Y* = X + . Onde a parcela no-observvel, a qual
assumida independentemente retirada de uma distribuio normal com mdia zero e desvio
padro 1, de acordo com as premissas de um modelo Probit.
Como muitas firmas em crescimento, espera-se que a Southwest tenha comeado sua
expanso entrando primeiro em mercados onde era previsto um maior lucro e um menor risco.
Essa lucratividade ps-entrada tende ento a diminuir conforme ela vai se expandindo e
passando a entrar em mercados no to bons como os primeiros. Ento, o modelo prev que a
deciso de entrada envolva uma diferena entre o lucro ps-entrada esperado e um limite a
partir do qual dado mercado deixa de der interessante para entrada: Y* - W (podendo as duas
variar no tempo).
Essa diferena no pode ser diretamente observada na prtica, porm, a deciso realmente
tomada pela empresa pode.
Ento, Yt fica assim descrito:
)(01
)(00
*
*
entraWYse
entranoWYseY
tt
ttt
9.3.2 Dados Utilizados
Dados de passageiros e viagens utilizados no trabalho foram retirados da pesquisa origem
destino OD1A do Departamento de Transporte dos Estados Unidos. Foi retirada uma amostra
de 10% de todas as passagens reportadas ao U.S. Scheduled Passenger Carriers.
A ateno dos autores manteve-se nos 2.500 maiores mercados, os quais juntos somam quase
90% de todo o trfego O&D domstico de passageiros. Foram excludos mercados com
distncias superiores a 3.000 milhas e inferiores a 100 milhas, j que, segundo os autores,
estes no so mercados de interesse da Southwest.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 63
-
9.3.3 Grupos de Variveis
As variveis exgenas consideradas na anlise foram escolhidas por sua habilidade de
impacto, na viso dos autores, na lucratividade ps-entrada da empresa em cada mercado.
Para isso, as variveis foram caracterizadas em 4 diferentes grupos:
Caractersticas do mercado
Caractersticas das cidades
Pr-existncia de algum tipo de presena da Southwest na cidade/mercado
Competio e concentrao do aeroporto/cidade
9.3.4 Resultados
No perodo de 1990-2000, o modelo previu 143 entradas no total, das quais 117 foram
realmente efetivadas pela Southwest.
Caractersticas do mercado: Os coeficientes estimados sugerem que, nos anos 90, a
Southwest deu preferncia a mercados de curtas distncias, mas com grandes
densidades de passageiros. Como esperado, a densidade de passageiros foi
considerada um estimador poderoso da entrada. Um aumento de 1% na densidade
aumenta a probabilidade de entrada em 0,01%.
Caractersticas das cidades: O coeficiente estimado na varivel ln(meanpop) grande
e significante a 1% e indica que um aumento de 1% na mdia geomtrica das
populaes do par de cidades leva a um aumento de 0,012% na probabilidade de
entrada.
Pr-existncia de algum tipo de presena da Southwest na cidade/mercado: Se a
Southwest estivesse construindo uma rede hub-and-spoke, seria esperado que
max(swcities) fosse positivo e significante. No entanto, o coeficiente estimado dessa
varivel deu negativo e significante, sugerindo que a empresa est fazendo exatamente
o contrrio.
Competio e concentrao do aeroporto/cidade: Como esperado pelos autores, os
resultados da estimativa confirmam que a Southwest tende a evitar os aeroportos hub
de outras companhias. Em particular, a presena de um aeroporto hub em qualquer um
dos pontos finais de um mercado diminui a probabilidade de entrada em 2,5%.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 64
-
Referncias
Boguslaski, C., H. Ito e D. Lee (2004) Entry patterns in the Southwest Airlines route system. Review
of Industrial Organization, v. 25, pp. 317-350. Kluwer Academic Publishers, Netherlands.
Bunch, D. e R. Kitamura (1989) Multinomial probit estimation revisited: Testing new algorithms and
evaluation of alternative model specification of household car ownership. Transportation
Research Group Report UCD-TRG-RR-4, University of California, Davis.
Train, K. (2003) Discrete Choice Methods with Simulation. Cambridge University Press. Disponvel
em: , acessado em: 10/11/2008.
Vol. 2, N. 2 (2008) Revista de Literatura dos Transportes - RELIT Pgina 65