2cusersra000000desktopjosimarpreverm1301100.jpg...

38

Upload: others

Post on 09-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Estrutura Hierárquica do Mercado Financeiro

Brasileiro

Autor: Clayton Henrique Samora (IMECC)

Orientador: Carlos Lenz César (DEQ - IFGW)

Campinas, 11 de julho de 2011

1

Page 2: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2

Page 3: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Sumário

1 Física, Matemática e Finanças 6

1.1 Introdução Histórica à Econofísica . . . . . . . . . . . . . . . . . 6

1.2 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 Proposição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 De�nições Gerais 8

2.1 A Bolsa de Valores . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Ações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3 De�nições Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 Vetor aleatório. . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.2 Vetor de médias: . . . . . . . . . . . . . . . . . . . . . . 10

2.3.3 Variância. . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.4 Covariância. . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.5 Matriz de covariância. . . . . . . . . . . . . . . . . . . . 11

2.3.6 Correlação. . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.7 Matriz de correlação. . . . . . . . . . . . . . . . . . . . . 12

2.3.8 Matriz de covariância e correlação de dois vetores aleatórios. 13

2.4 Estimação de Parâmetros: . . . . . . . . . . . . . . . . . . . . . 14

2.4.1 Vetor de média amostral. . . . . . . . . . . . . . . . . . . 14

2.4.2 Matriz de covariância amostral. . . . . . . . . . . . . . . . 15

2.4.3 Matriz de correlação amostral . . . . . . . . . . . . . . . . 15

2.5 Medidas de similaridade e dissimilaridade . . . . . . . . . . . . . 16

2.5.1 Métrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.5.2 Distância Euclidiana . . . . . . . . . . . . . . . . . . . . . 17

2.5.3 Distância Generalizada ou ponderada . . . . . . . . . . . 17

2.6 Distância de Minkowsky . . . . . . . . . . . . . . . . . . . . . . . 18

2.7 Técnicas para a construção de conglomerados (cluster) . . . . . . 18

2.7.1 Método de Ligação Simples (Single Linkage) . . . . . . . 19

2.7.2 Método de Ligação Completa (Complete Linkage) . . . . 19

2.7.3 Método da média das distâncias (Average Linkage) . . . . 20

2.7.4 Método do centróide (Centroid Method) . . . . . . . . . . 20

2.7.5 Método de Ward . . . . . . . . . . . . . . . . . . . . . . . 21

2.8 Dinâmica dos Preços . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.9 Correlação temporal em Séries Financeiras . . . . . . . . . . . . . 23

2.10 Teoria de Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3

Page 4: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2.10.1 Distância entre ações . . . . . . . . . . . . . . . . . . . . . 24

2.10.2 Espaços Ultramétricos . . . . . . . . . . . . . . . . . . . . 24

2.11 Análise de Comglomerado (Cluster) . . . . . . . . . . . . . . . . 25

2.11.1 Técnica de Reamostragem Multiescala Bootstrap . . . . . 25

3 Análise de Dados 25

3.1 Análise dos coe�cientes de correlação . . . . . . . . . . . . . . . . 26

4 Conclusões e Perspectivas 36

4

Page 5: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Lista de Figuras

1 Lista das 84 empresas estudadas. . . . . . . . . . . . . . . . . . . 26

2 Mapa da matriz de Correlação dos dados analisados do primeiro

semestre de 2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Mapa da matriz de Correlação dos dados do segungo semestre de

2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Mapa da matriz de Correlação dos dados analisados no ano de 2010 28

5 Dendrograma da série temporal do primeiro semestre de 2010

com α = 0.90, identi�cado pelo retângulo vermelho . . . . . . . . 29

6 Dendrograma da série temporal do primeiro semestre de 2010

com α = 0.95, identi�cado pelo retângulo vermelho . . . . . . . . 30

7 Dendrograma da série temporal do primeiro semestre de 2010

com α = 0.99, identi�cado pelo retângulo vermelho . . . . . . . . 30

8 Dendrograma da série temporal do ano de 2010 com α = 0.999,

identi�cado pelo retângulo vermelho . . . . . . . . . . . . . . . . 31

9 Dendrograma da série temporal do primeiro semestre de 2010

com α = 0.90, identi�cado pelo retângulo vermelho . . . . . . . . 32

10 Dendrograma da série temporal do segundo semestre de 2010 com

α = 0.95, identi�cado pelo retângulo vermelho . . . . . . . . . . . 32

12 Dendrograma da série temporal do primeiro semestre de 2010

com α = 0.999, identi�cado pelo retângulo vermelho . . . . . . . 33

11 Dendrograma da série temporal do primeiro segundo de 2010 com

α = 0.99, identi�cado pelo retângulo vermelho . . . . . . . . . . . 33

13 Dendrograma da série temporal do ano de 2010 com α = 0.90,

identi�cado pelo retângulo vermelho . . . . . . . . . . . . . . . . 34

14 Dendrograma da série temporal do ano de 2010 com α = 0.95,

identi�cado pelo retângulo vermelho . . . . . . . . . . . . . . . . 34

15 Dendrograma da série temporal do ano de 2010 com α = 0.99,

identi�cado pelo retângulo vermelho . . . . . . . . . . . . . . . . 35

16 Dendrograma da série temporal do ano de 2010 com α = 0.999,

identi�cado pelo retângulo vermelho . . . . . . . . . . . . . . . . 35

5

Page 6: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Resumo

Procuramos econtrar um arranjamento topológico das ações negoci-

adas no mercado �naceiro, analisando apenas as séreis temporais dos log-

retorno no período de 2010. Construimos um dendrograma no qual é pos-

sivel visualizar os conglomerados, para dois cenários disjunto, comporto

pelos primerios seis meses de 2010 e outro composto dos últimos seis meses.

Comparamos os dados obtidos com o dendrograma da série temporal do

ano de 2010. Fizemos um teste de robustez utilizando-se da técinica de

Bootstrap, onde para cada conjunto de dados �zemos 1.000 simulações.

Está analise é últil pois podemos investigar a robustez dos cluster for-

mados. Fato importante quando se pretende montar uma carteira de

investimento e se deseja diversi�car o risco.

1 Física, Matemática e Finanças

1.1 Introdução Histórica à Econofísica

Há tempos a matemática tornou-se parte integrante e fundamental em di-

versas áreas das ciências, modelando fenômenos naturais em teorias e fórmu-

las. Com o advento dos computadores este processo vem sofrendo uma grande

evolução pois propiciou juntamente com os algoritmos numéricos a elaboração e

implementação de modelos nas mais diferentes áreas do conhecimento humano.

Dentre ás áreas em que esta evolução é evidente destacamos a área de Finanças.

A constante e dinâmica evolução dos mercados de capitais no mundo glob-

alizado acarreta no surgimento de novos produtos que são fruto do processo

de modelagem matemática para atender as necessidades dos agentes �nan-

ceiros. Isto fez com que a necessidade de modelos cada vez mais complexos,

que começaram a ser elaborados a partir de uma série de mudanças signi�ca-

tivas que ocorreram na década de 70 no mercado �nanceiro propiciando opor-

tunidades para pro�ssionais das áreas de Físicos, Estatísticos e Matemáticos

Aplicada.

É bem sabido que o contato dos Físicos com Finanças é de longa data. Vide

a famosa frase de Sir Issac Newton (1643-1727) �I can calculate the motion

of the heavenly bodies, but not the madness of people� (Eu consigo calcular

o movimento dos corpos, mas não a loucura dos Homens) sobre sua perda de

¿20.000 na �South Sea Bubble� na Bolsa de Londres.

Car Friederich Gauss (1777-1855) deixou uma fortuna avaliada em 170.000

Taler (unidade monetária da época) ao morrer, lembrando que seu salário era de

6

Page 7: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

1.000 Taler. Acredita-se que ele derivou a distribuição normal de probabilidade

(Gaussiana) ao estimar o risco ao fornecer crédito a seus vizinhos Voit [2005].

Louis Bachelier (1870-1946) foi um matemático frances na virada do século

XX, a ele é creditado como a primeira pessoa a modelar um processo estocástico

agora chamado de movimento Bowniano e fundador da matemática �nanceira.

Sua tese �Théorie de la spéculation�(Teoria da especulação) Bachelier [1900], de-

fendida em 29 de março de 1900 na Academia de Paris seu orientador foi Jules

Henri Poincaré (1854-1912). Sua tese lida com apreçamento de opções em mer-

cados especulativos é hoje extremamente importante nos mercados �nanceiros

em que derivativos são negociados em vários mercados. Bachelier determinou

a probabilidade de mudança de preços ao escrever a equação que atualmente é

conhecida como equação de Chapman-Kolmogorov e ao reconhecer que o pro-

cesso de Wiener satisfaz a equação da difusão (descoberto pelo físico Albert

Einstein em seu artigo sobre o Movimento Browniano em 1905) Mantegna and

Stanley [2000].

Vilfredo Pareto (1848-1923) foi economista italiano. Ele investigou o caráter

estatístico das riquesas individuais em uma econômia estável usando o modelo

de distribuição segundo uma lei de potência. Em 1897 Pareto usou uma lei de

potência para modelar a distribuição de renda dentre os indivíduos, uma vez

que ela descrevia muito bem o fato de grande parte da riqueza de qualquer

sociedade pertencer a uma pequena fração das pessoas dessa sociedade. Este

estudo serviu de base para modelos da teoria de probabilidade Mantegna and

Stanley [2000].

Alguns fundadores da Teoria Neoclássica, incluindo Irving Fisher matemático

e tendo como orientadores o físico Willard Gibbs e o economista William Gra-

ham Summer. Ele escreveu sua tese de doutorado combinando os temas de

economia e matemática Mantegna and Stanley [2000].

1.2 Motivação

Conforme observa Muniz A. o setor �nanceiro é um dos ramos mais dinâmi-

cos no que tange ao desenvolvimento de novos produtos e serviços. Nota-se que a

partir da década de 60 uma série de importantes mudanças ocorreu no mundo.

Dentre essas mudanças as chamadas inovações �nanceiras que caracteriza-se

pela criação de novos produtos e serviços que �exibilizam os ativos e passivos

das instituições �nanceiras.

Até o início da década de 60 o sistema �nanceiro atuava de maneira coberta,

ou seja, sem assumir riscos em suas transações. O processo de mudança se

7

Page 8: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

intensi�cou principalmente a partir das mudanças ocorridas nos anos 60/70 com

o advento das inovações �nanceiras e o surgimento do computador (Mainframe).

Em 1973 Robert C. Metron, Myron S. Scholes e Fischer Black, desenvolveram

um trabalho sobre apreçamento de derivativos. Esse trabalho facilitou a admin-

istração do risco Mantegna and Stanley [2000].

Nos anos 80 se dá outra grande transformação. A expansão da negociaçã

eletrônica para bolsas de valores em diversas regiões do mundo. Isso gerou

uma quantidade muito grande de dados disponíveis eletrônicamente. A enorme

expansão dos mercados �nanceiros requer grande quantidade de capital �nan-

ceiro e intelectual para que se possa minimizar os riscos dos agentes econômicos

envolvidos Mantegna and Stanley [2000].

1.3 Proposição

Neste trabalho, focaremos nosso estudo nos processos estocásticos e pro-

priedades estatísticas que descrevem os log-retornos de preços de ações, utilizado

o método de Ward para minimizar variância dentro do conglomerado . Usaremos

o conceito de Espaço Ultramétrico e Teoria de Grafos para obter informações

topológicas quanto ao agrupamento das ações e extrair informações comuns par-

tilhadas entre elas. Contruir dendrogramas com diferentes fatores de robustez, a

série de dados anual (2010) será particionada em duas menores correspondendo

respectivamente ao primero e segundo semestre que será confrontada com a série

anual. O entendimento das �utuações temporais é de extrema importacia para

a escolha das ações que irão compor uma carteira de investimentos.

2 De�nições Gerais

2.1 A Bolsa de Valores

Bolsa de valores é um mercado organizado onde se negociam ações de empre-

sas de capital aberto (públicas ou privadas) e outros instrumentos �nanceiros

como opções e debêntures.

Pode se constituir na forma de uma associação cívil sem �ns lucrativos ou de

uma S/A visando lucro atrvés de seus serviços, que mantem o local ou o sistema

de negociação eletrônico adequado à a realização de transações de compra e

venda de títulos e valores mobiliários. A bolsa deve zelar elevados padrões

éticos de negociação, divulgando com rapidez, aplitude e detalhes as operações

executadas.

As bolsas têm o dever de repassar aos investidores informações sobre seus

8

Page 9: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

negócios diários, comunicados relevantes de empresas abertas, dados de mercado

de forma a contribuir para a transparência das operações.

2.2 Ações

A de�nição de ação dada pela Bovespa é a seguinte:

�Valor imobiliario, emitido pelas companhias, representativo da parcela do

capital. Representa a menor parcela em que se divide o capital da companhia.

Título negociável em mercados organizados�.

Todas as ações negociadas atualmente no Brasil ou são nominativas (N) ou

escriturais (E). Para ações nominativas, presume-se a propriedade para aquele

que constar no Livros de Registros das Ações Nominativas. Já para ações es-

criturais, dispensa-se a emissão de título de propriedade, ou seja, não há movi-

mentação �síca de documentos, ela funciona como uma conta corrente, no qual

os valores são lançados a débito ou a crédito dos acionistas.

Quanto às suas características, podem ser classi�cadas em duas categorias:

ordinárias (ON) e preferenciais (PN). Ações ordinárias são aquelas que propor-

ciona a participação nos resultados econômicos de uma empresa. Confere a seu

títular o direito de voto em assembléia. Não dão direito preferêncial a dividen-

dos. Ações preferenciais oferece ao seu detentor prioridade no recebimento de

dividendos e/ou no caso de dissolução da empresa, no reembolso do capital. Em

geral não concede direito a voto em assembléia.

2.3 De�nições Estatísticas

Apresentaremos algumas de�nições muito comuns na manipulação de dados

multivariados Mingori [2007].

2.3.1 Vetor aleatório.

Seja X um vetor aleatório contendo k componentes, onde cada componente

é uma variável aleatória, isto é, xi é uma variávil aleatória (v.a.) ∀i = 1...k.

Então X é chamado de vetor aleatórios e é denotado por:

X =

x1

x2...

xk

, onde seu transporto é dado por X ′ =

[x1 x2 . . . xk

].

9

Page 10: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2.3.2 Vetor de médias:

Seja X um vetor aleatório. O vetor μ = E [X] é chamado de vetor de médias

do vetor X ′ =[x1 x2 . . . xk

], sendo que

μ=

E[x1]

E[x2]

...

E[xk]

=

µ1

µ2

...

µk

,

ondeµi = E[xi] é a média, ou a esperança, da variável aleatória xi,∀i =

1, ..., k.

2.3.3 Variância.

A variância do i-ésimo componente do vetor X será denotada por V ar[xi] =

σ2 = σii. O desvio padrão será denotado por σi ou√σii e fornece informação

sobre a dispersão dos valores da variável xi em relação a µi, isto é, indica se

os valores de xi estão próximos ou distantes da média µi, de modo que valores

grandes de σi indicam uma maior dispersão de valores em relação à média.

2.3.4 Covariância.

A covariância entre os valores da i-ésima e j-ésima variável do vetor X é

de�nida por:

Cov[xi, xj ] = σij = E[(xi − µi)(xj − µj)].

Quando i = j, a expressão acima torna-se a variância da variável xi,∀i =

1, ..., k. A covariância é uma medida do relacionamento linear entre duas var-

iáveis aleatórias. Analisando a formula acima percebe-se que quando os valores

de xi acima da média µi tendem a estar associados a valores de xj acima da

média µj , consequentemente a covariânciaσii tende a ser positiva assim como

quando valores de xj abaixo da média µj tendem a estar associado de xj abaixo

da média µj . Logo a medida que a variável xi cresce (decresce), a variável xjtambém cresce (decresce) linearmente. Porém quando valores de xi acima da

média µi tendem a estar associados com valores de xj abaixo da média µj , ou

10

Page 11: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

vice-versa, a covariância σij tende a ser negativa. Logo a medida que a variável

xi cresce (decresce), a variável xj decresce (cresce) linearmente. Concluimos

que com a medida da covariância podemos veri�car se duas variáveis aleatórias

movimentam-se ou não no mesmo sentido, porém é di�cil julgar se esta relação

linear medida é forte ou não, uma vez que não temos um valor de referência

mínimo ou máximo para comparação dos valores σij . Assim uma medida mais

últil na prática é a correlação que será de�nida posteriormente. O procedi-

mento mais comum é guardar os valores de σij numa matriz chamada de matriz

de covariância, como de�nido a seguir.

2.3.5 Matriz de covariância.

A matriz de variâncias e covariancias do vetor aleatório X e de�nida por:

Cov[X] = V ar[X] = Σkk =

σ12 σ12 · · · σ1k

σ21 σ22 · · · σ2k...

.... . .

...

σk1 σk2 · · · σkk

A matriz de covariância é uma matriz simétrica, isto é, σij = σji e semi

positiva de�nida, ou seja, ela satisfaz as seguintes propriedades equivalentes:

1. Para todos os vetores não nulos z ∈ Rk, z′Σz > 0.

2. Todos os autovalores λi de Σ são não negativos, isto é,λi > 0, ∀i = 1, ..., k.

3. Todas as submatrizes principais são não negativas.

Algumas matrizes de covariância são positivas de�nidas, ou seja, ela satisfaz as

seguintes propriedades equivalentes:

1. Para todos os vetores não nulos z ∈ Rk, z′Σz > 0.

2. Todos os autovalores λi de Σ são todos positivos, isto é,λi > 0, ∀i = 1, ..., k.

11

Page 12: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

3. Todas as submatrizes principais são positivas.

Consequêntemente a matriz Σ é não singular, e seu determinante é maior que

zero. Assim sendo, a matriz Σ terá uma matriz inversa denotada por Σ−1.

Deste modo, uma matriz que não tenha a propriedade de simetria e que não

seja semi positiva de�nida ou positiva de�nida não poderá ser uma matriz de

covariâncias.

2.3.6 Correlação.

O coe�ciente de correlação entre as i-ésima e j-ésima variáveis do vetor Xé

de�nido por:

ρij =σij√σiiσjj

=σijσiσj

, −1 6 ρij 6 1,∀i, j = 1, ..., k

Quando i = j, a expressão acima torna-se igual a 1. A correlação é uma

medida mais adequada para avaliar o grau de relacionamento linear entre duas

variáveis quantitativas do que a covariância, pois seus valores estão sempre entre

os valores de referência −1 e 1. Assim quanto mais próximo de 1, mais indicação

se tem de que existe um relacionamento positivo (crescimento) entre as variáveis

xi e xj e por sua vez quanto mais próximo de −1, mais indicação se tem que

existge um relacionamento negativo (decrescimento) entre as variáveis xi e xj .

Uma correlação próxima de zero é uma indicação de um não relacionamento

linear entre as variáveis xi e xj . Também é importante notar que o coe�ciente

de correlação é adimensional e, logo não sofre in�uência das diferenças de escalas

de medidas entre as variáveis. O procedimento mais comum é guardar os valores

de ρij numa matriz chamada de matriz de correlação, como de�nido a seguir.

2.3.7 Matriz de correlação.

A matriz de correlalção do vetor aleatório X é de�nida por:

12

Page 13: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Pij =

1 ρ12 · · · ρ1k

ρ21 1 · · · ρ2k

· · · · · ·. . . · · ·

ρk1 ρk2 · · · ρkk

As propriedades discutidas para as matriz de covariância, são também váli-

das para a matriz de correlação.

2.3.8 Matriz de covariância e correlação de dois vetores aleatórios.

Sejam dois vetores aleatórios X e Y de mesma dimensão k. Neste caso,

podemos nos referir às matrizes de covariância e de correlação de X e Y . Essas

matrizes são denotadas por: Σx, Σy e Σxy, Px,Py ePxy, respectivamente. Então,

a matriz de covariâncias entre os vetores X e Y será dada por:

Σxy =

E[(x1 − µx1)(y1 − µy1)] E[(x1 − µx1)(y2 − µy2)] · · · E[(x1 − µx1)(yk − µyk)]

E[(x2 − µx2)(y1 − µy1)] E[(x2 − µx2)(y2 − µy2)] · · · E[(x2 − µx2)(yk − µyk)]

· · · · · ·. . . · · ·

E[(xk − µxk)(y1 − µy1)] E[(xk − µxk)(y2 − µy2)] · · · E[(xk − µxk)(yk − µyk)]

Σxy =

Cov[x1, y1] Cov[x1, y21] · · · Cov[x1, yk]

Cov[x2, y1] Cov[x2, y2] · · · Cov[x2, yk]

· · · · · ·. . . · · ·

Cov[xk, y1] Cov[x3, y2] · · · Cov[xk, yk]

.

A matriz de covariância entre Y e X é a matrizΣxy transposta. O mesmo

procedimento pode ser realizado para construção das matrizes de correlação Pxye Pyx.

13

Page 14: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2.4 Estimação de Parâmetros:

Na prática, as matrizes de covariância e de correlação teóricas precisam

ser estimadas através de dados amostrais . Suponha que dispomos de uma

amostra de tamanho n, onde cada elemento da amostra, tenha se observado os

valores de k-variáveis aleatórias de interesse, ou seja, tem-se n vetores aleatórios

independentes e identicamente distribuídos da forma:

X1 =

x11

x21...

xk1

, X2 =

x12

x22...

xk2

, ..., Xn =

x1n

x2n...

xkn

,

onde o primeiro índice indica a variável e o segundo o elemento amostral.

Armazenando os valores dos elementos amostrais observados X1, X2, ..., Xn,

numa matriz chamada matriz de dados, de modo que a informação de cada vetor

Xi seja armazenada numa linha desta matriz e cada coluna representa os dados

observados de uma variável. Assim, tem-se a matriz de dado dada por:

Xnk =

X11 X21 · · · Xk1

X12 X22 · · · Xk2

......

. . ....

X1n Xσ2n · · · Xkn

2.4.1 Vetor de média amostral.

O vetor de média µ será estimado pelo vetor de médias amostrais X de�nido

por:

X = 1n [X1 +X2 + · · ·+Xn] =

X1

X2

...

Xk

,

14

Page 15: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

onde Xi é a média amostral da i-ésima variável, i = 1, ..., k.

2.4.2 Matriz de covariância amostral.

Amatriz de covariância Σkk será etimada pela matriz de covariâncias amostrais

Skk de�nida por:

Skk =

S12 S12 · · · S1k

S21 S22 · · · S2k

......

. . ....

Sk1 Sk2 · · · Skk

,

ondeSij = Sji para i 6= j é a covariância amostral entre a i-ésima e j-ésima

variável e Sii para i = j é a variância amostral da i-esima variável são de�nidos

respectivamente por:

Sij =∑nl=1(Xil−Xi)(Xjl−Xj)

n−1 .

que é a variância amostral da i-ésima variável.

Sii =∑nl=1(Xil−Xi)

2

n−1 ,

2.4.3 Matriz de correlação amostral

A matriz de correlação teórica Pkk será estimada pela matriz de correlação

amostral Rkk de�nida por:

Rkk =

R12 R12 · · · R1k

R21 R22 · · · R2k

......

. . ....

Rk1 Rk2 · · · Rkk

,

15

Page 16: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

onde Rij =Sij√SiiSjj

é coe�ciente de correlação amostral entre as i-ésima

ej-ésima variáveis, conhecido como coe�ciente de correlação de Person Triola

[2005].

2.5 Medidas de similaridade e dissimilaridade

Dado um conjunto de n elements amostrais, tendo-se medido k-variáveis

aleatórias em cada um deles. O objetivo é agrupar esses elementos em g grupos.

Para cada elemento amostral j, tem-se, portanto o vetor de medidas Xj de�nido

por:

X ′j =

[x1j x2j . . . xkj

], ∀j = 1, ..., n

onde xij representa o valor observado da variável i medida no elemento j.

Para que se possa proceder ao agrupamento de elementos, é necessário que se

decida a priori a medida de similaridade ou dissimilaridade que será utilizada.

Existem várias medidas deferentes e cada uma delas produz um determi-

nando tipo de agrupamento. Apresentaremos algumas medidas de dissimilar-

idade e, logo, quanto menor os seus valores mais similares serão os elementos

que estão sendo comparados.

As distâncias entre os elementos amostrais são armazenadas numa matriz

Dnn, chamada de matriz de distâncias, onde dij representa a distância do ele-

mento amostral i ao elemento amostral j.

Dnn =

0 d12 · · · d1n

d21 0 · · · d2n

· · · · · ·. . . · · ·

dn1 dn2 · · · 0

2.5.1 Métrica

Dado um conjunto não vazio, podemos de�nir uma maneira de �medir dis-

tância� entre os seus elementos, o que chamamos de métrica. Assim, o cojunto

16

Page 17: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

passa a ser um espaço métrico Elon [2003].

d : M ×M → <

se satisfaz as propriedades:

1. d(x, x) = 0

2. Se x 6= y então d(x, y) > 0

3. d(x, y) = d(y, x)

4. d(x, z) 6 d(x, y) + d(y, z)

2.5.2 Distância Euclidiana

A distância Euclidiana entre dois elementos Xl e Xp, com l 6= p, é de�nida

por:

d(Xl, Xp) =√

(Xl −Xp)′(Xl −Xp) =√∑k

i=1(Xil −Xil)2,

ou seja, os dois elementos amostrais são comparados em cada variável per-

tencente ao vetor de observações.

2.5.3 Distância Generalizada ou ponderada

A distância generalizada entre dois elementos Xl e Xp, com l 6= p, é de�nida

por:

d(Xl, Xp) =√

(Xl −Xp)′A(Xl −Xp),

onde Akk é uma matriz de ponderação, positiva de�nida, onde sua escolha

re�ete o tipo de informação que se deseja utilizar na ponderação das diferentes

coordenadas dos vetores que estão sendo comparados:

17

Page 18: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

• Se a matriz Akk é a identidade, a distância generalizada é a distância

Euclidiana;

• Se a matriz Akk é a matriz inversa da covariância amostral S−1kk , tem-

se a distância de Mahalanobis (1936), onde leva-se em consideração, na

ponderação, as possíveis diferenças de variância e as relações lineares entre

as variáveis, medidas em termos de covariância;

• Se a matriz Akk é a matriz é diag( 1k ), tem-se a distância Euclidiana média.

2.6 Distância de Minkowsky

A distância de Minkowsky entre dois elementosXl e Xp, com l 6= p, é de�nida

por:

d(Xl, Xp) = λ

√∑ki=1 wi |Xil −Xip|λ,

onde os wi são os pesos de ponderação para as variáveis.

2.7 Técnicas para a construção de conglomerados (clus-

ter)

Temos as técnicas de conglomerados que são classi�cadas em técnicas hi-

erárquicas e técnicas não hierárquicas.

As técnicas hierárquicas são classi�cadas em aglomerativas e divisivas. As

técnicas hierárquicas, na maioria das vezes, são utilizadas em análise explo-

ratória dos dados com intuito de identi�car possíveis agrupamentos e o valor

provável do número de grupos g. Elas partem do princípio de que no início

do processo de agrupamento tem-se n conglomerados (cluster), ou seja, cada

elemento do conjunto de dados observado é considerado um comglomerado iso-

lado. Em cada passo do algoritmo, os elementos amostrais vão sendo agrupados,

formando novos conglomerados até o momento no qual todos os elementos con-

siderados estão num único grupo. Portanto, no estágio inicial do processo de

agrupamento, cada elemento amostral é considerado como um conglomerado

de tamanho 1 e no último estágio do agrupamento tem se apenas um único

conglomerado constituíndo de todos os elementos amostrais.

18

Page 19: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Em termos de variabilidade, no estágio inicial, tem-se a partição com a

menor dispersão interna possível, no estágio �nal, tem-se a maior dispersão

interna possível. Em cada estágio do procedimento de agrupamento, os grupos

são comaprados através de alguma medida de similaridade (ou dissimilaridade)

previamente de�nida.

Já as técnicas não hieráraquicas, é necessário que o valor do número de

grupos já esteja pré-especi�cado. Apresentamos algumas técnicas hierárquicas

algomrativas.

2.7.1 Método de Ligação Simples (Single Linkage)

Neste método, a similaridade entre dois comglomerados é de�nida pelos dois

elementos mais parecidos entre si Sneath [1957]. Como ilustração das técnicas

de ligação usaremos um mesmo exemplo em todas elas, suponha que num deter-

minado estágio do algoritmo de agrupamento se tenha dois grupos, um contendo

os elementos amostrais 1, 3 e 7 e outro contendo os elementos 2 e 6, isto é,

C1 = {X1, X3, X7} e C2 = {X2, X6}

Então, a distância entre esses dois grupos será de�nida por:

d(C1, C2) = min{d(Xl, Xp)|l 6= p ∧ l = 1, 3, 7 ∧ p = 2, 6},

ou seja, é a distância entre os �visinhos� mais próximos ou entre elementos

mais parecidos de cada conglomerado. Em cada estágio do processo de agru-

pamento, os dois conglomerados que são mais similares com relação à distância

d(·) são combinados em um único conglomerado.

2.7.2 Método de Ligação Completa (Complete Linkage)

Neste método, a similaridade entre dois conglomerados é de�nida pelos el-

ementos que são �menos semelhantes� entre si Sneath [1957]. como ilustração

consideremos o mesmo conglomerado acima.

C1 = {X1, X3, X7} e C2 = {X2, X6}

Então, a distância entre eles será de�nida por:

19

Page 20: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

d(C1, C2) = max{d(Xl, Xp)|l 6= p ∧ l = 1, 3, 7 ∧ p = 2, 6},

ou seja, em cada estágio do processo de agrupamento, a distância d(·) é

calculada para todos os pares de grupos, sendo, então, combinados num único

aqueles que apresentarem o menor valor da distância, isto é, o menor valor de

máximo.

2.7.3 Método da média das distâncias (Average Linkage)

Este método trata a distância entre dois conglomerados como a média das

distâncias entre todos os pares de elementos que podem ser formados com os

elementos dos dois conglomerados que estão sendo comparados. Portanto, se o

conglomerado C1 tem n1 elementos e o conglomerado C2 tem n2 elementos, a

distãncia entre eles será de�nida por:

d(C1, C2) =∑l∈C1

∑p∈C2

(1

n1n2

)d (Xl, Xk).

Assim, a distância entre os conglomerados: C1 = {X1, X3, X7} e C2 =

{X2, X6} é igual a:

d(C1, C2) =

16 [d(X1, X2) + d(X1, X6) + d(X3, X2) + d(X3, X6) + d(X7, X2) + d(X7, X6)].

2.7.4 Método do centróide (Centroid Method)

Neste método, a distância entre dois grupos é de�nida como sendo a distância

entre os vetores de médias, também chamados de centróides, dos grupos que

estão sendo comparados. Assim, se C1 = {X1, X3, X7} e C2 = {X2, X6}, osvetores da médias correspondentes são:

vetor de médias de C1 = X1 = 13 [X1 +X3 +X7],

vetor de médias de C2 = X2 = 12 [X2 +X6],

e a distância entre C_1 e C_2 é de�nida por:

20

Page 21: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

d(C1, C2) =(X1 −X2

)′ (X1 −X2

)que é a distância Euclidiana ao quadrado entre os vetores de média amostral

X1 e X2. O método da centróide também pode ser usado com a distância

Euclidiana usual entre os vetores de médias. Em cada passo do algoritmo de

agrupamento. os conglomerados que apresentam o menor valor de distância são

agrupados.

2.7.5 Método de Ward

A partição �desejada� é aquela que produz grupos os mais heterogêneos pos-

síveis e de forma que os elementos dentro de cada grupo sejam homogêneos. Nos

métodos anteriores, viu-se que, com exceção do método do centróide, quando se

passa do estágio k para o estágio k + 1 no algoritmo de agrupamento, ou seja,

se passa de (n − k) para (n − k − 1) grupos a qualidade da partição decresce,

uma vez que o nível de fusão aumenta e, logo, o nível de similaridade decresce,

uma vez que o nível de fusão aumenta e, logo, o nível de similaridade decresce.

Isso signi�ca que a variação entre grupos diminui e a variação dentro do grupo

aumenta.

Em 1963, Ward propôs um método de agrupamento que é fundamentados

justamente nesta �mudança de variação� entre os grupos e e dentro dos grupos

que estão sendo formados em cada passo do agrupamento. Seu procedimento

é também é conhecido como �mínima variância� e fundamenta-se nos seguintes

princípios:

• Inicialmente, cada elemento é considerado como um único conglomerado;

• em cada passo do algoritmo de agrupamento calcula-se a soma de quadra-

dos dentro de cada conglomerado. Esta soma de quadrados é a dis-

tância Euclidiana de cada elemento amostral pertecente ao aglomerado

em relação ao correspondente vetor de médias do conglomerado, isto é,

SSi =∑nij=1

(Xij −Xi

)′ (Xij −Xi

), onde ni é o número de elementos

no conglomerado Ci quando se está no passo k do processo de agrupa-

mento, Xij é o vetor de observações do j-ésimo elemento amostral que

pertence ao i-ésimo conglomerado, Xi é o centróide do conglomerado Ci e

SSi representa a soma de quadrados correspondente ao conglomerado Ci.

21

Page 22: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

No passo k, a soma de quadrados total dentro dos grupos é de�nida como:

SSR =∑gki=1 SSi,

onde gk é o número de grupos existentes quando se está no passo k.

A distância entre os conglomerados Cl e Ci é, então, de�nida como :

d(Cl, Ci) =[nlninl+ni

] (X l. −Xi.

)′ (X l. −Xi.

)que é a soma de quadrados entre os cluster Cl e Ci em cada passo do algo-

ritmo de agrupamento, os dois conglomerados que minimizam a distância são

combinados.

2.8 Dinâmica dos Preços

De�nidno Si (t) como o preço do ativo �nanceiro i no instante t, considere

duas variáveis estocásticas: a mudança de preço ri (t) e a diferença do logaritmo

natual do preços Ri(t) [4],

ri (t) = Si (t)− Si (t−4t),

Ri (t) ≡ lnSi (t)− lnSi (t−4t) = ln(

Si(t)Si(t−4t)

),

sendo4t um intervalo de tempo arbitrário. De�nimos a equação acima como

o retorno de preços. Usaremmos 4t = 1dia. Uma vez que a ação representa a

menor parcela do capital social de uma emrpesa, seu preço de alguma maneira

deve re�etir o valor dessas empresa. Note que o valor presente de uma empresa

depende não apenas de sua situação atual, mas também de sua performace

futura. Veri�ca-se um problema básico de apreçamento de um ativo: estamos

tentando fazer previsões futuras vaseado em informações atuai, assim se uma

nova informação é revelada, ela impactará o preço futuro da ação. Portanto a

dinâmica de preções também poderá ser afetada por essa expectativa, ou seja,

o preço futuro de uma ação estará sujeito a um certo grau de incerteza.

Correlação Temporal em Séries Financeiras

22

Page 23: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2.9 Correlação temporal em Séries Financeiras

Uma maneira de se detectar similaridade e diferenças na evolução temporal

síncrona de um par de ações i e j é estudar o coe�ciente de correlação ρij do

log-retorno dos preços. Apresenta se duas notações equivalentes para o cálculo

do coe�ciente de correlação.

O coe�ciente de correlação é de�nido por:

ρij =E(Ri,Rj)−E(Ri)E(Rj)√

(E(R2i )−E(Ri)

2)(E(R2j)−E(Rj)

2)=

<RiRj>−<Ri><Rj>√(<R2

i>−<Ri>2)(<R2j>−<Rj>2)

∀i, j = 1, ..., n

sendo n o número de ações, i e j os rótulos das ações e 4t o intervalo de

tempo escolhido para o cálculo do log-retorno dos preços. Utilizamos os preços

de fechament para se calcular o log-retorno dos preços.

No caso de séries temporáis do log-retorno de preços de ações, a matriz de

correlação pode conter informações sobre os setores econômicos das empresas

consideradas. Análises teóricas e empíricas recentes têm mostrado que essas

informações podem ser detectadas usando-se uma variedade de métodos Tum-

minello et al. [2007]. Neste estudo, vamos considerar métodos baseados na Teo-

ria de Grafos e utilizar s conceitos de espaços ultramétrico e testar os métodos

de formação de conglomerados com teste boostrap.

2.10 Teoria de Grafos

Grafos tem sido amplamente utilizados na análise de sistemas complexos

Ahuja et al. [1993]. Tem-se usado para extrari informações de sistemas que

apresentam elementos correlacionados entre si. Onde o coe�ciente de correlação

pode ser interpretado como a magnitude da ligação entre os pares de elementos.

A idéia principal é extrair um sub grafo de um grafo completo considerando os

pesos da ligação entre os elementos contidas na matriz de correlação do sistema.

Com isto obtemos uma estrutura topológica.

O sub grafo que estamos interessado é o que representa uma árvore geradora

mínima (minimal spanning tree), que se caracteriza por ter todos as ações (vér-

tices) conectados por n− 1 arestas para um sistema de n elementos. Mudança

topológica foi observada na proximidade de quebra das Bolsas em 1987 Bonanno

et al. [2000],Mantegna [1999].

23

Page 24: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

2.10.1 Distância entre ações

Com o coe�ciente de correlação ρij pode-se de�nir uma distância métrica

de modo que forneça uma medida relativa entre ações de uma dada carteira e

também fornece um método para extrair informações econômicas contidas nas

séries temporais dos log-retornos de preços das ações Mantegna and Stanley

[2000].

Assim, a distância entre duas ações em função de seus coe�cientes de corre-

lação pode ser escrita como

dij =√

2 (1− ρij),

Com essa escolha, dij satisfaz os axiomas de uma métrica Euclidiana.

2.10.2 Espaços Ultramétricos

O conhecimento da matriz de distância Dnn dos n objetos é usada para de-

compor o conjunto em subconjunto de objetos mais estreitamente correlaciona-

dos. Para se obter tal con�guração, assume se a hipótese sobre os n objetos,

segundo o qual uma distância ultramétrica sub-domenante descreve o arranjo

das ações em uma carteira.

Tem-se uma distâmcia ultramétrica quando a desigualdade triangular da

de�nição da métrica é substituída por uma desigualdade mais forte, chamada

de desigualdade ultramétrica .

dij 5 max {dip, dpj}

Espaços ultramétricos fornecem uma maneira de descrever sistemas com-

plexos hierarquicamente estruturados. Uma vez que a distância métrica entre

n objetos existe, muitos espaços ultra-métricos podem ser obtidos através de

diferentes estratégias de separações do conjunto de dados.

O método utilizado para a construlção da árvore geradora mínima conectando

os elementos do sistema será o Algoritmo Heurístico de Kruskal Ahuja et al.

[1993].

Algoritmo de Kruskal:

P1. Comece um um grafo completamente desconectado G de n vértices.

24

Page 25: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

P2. Construa uma lista ordenada de maneira crescente de pares de ações de

acordo com as distâncias dij . O primeiro par possui a menor distância.

P3. Começando do topo da lista, adicione ligações a G de maneira que essas

ligações não formem laços.

P4. Repita o P3, analisando a lista ordenada e escolhendo pares, até que

n − 1 ligações sejam feitas. Com isso ao �nal do processo G será uma árvore

geradora mínima.

2.11 Análise de Comglomerado (Cluster)

Usa-se análise de conglomerado (cluster) para examinar a semelhança entre

os indivíduos. Agrupamentos hierárquicos gera um dendrograma que contém

grupos, que possuem semelhanças com base na matriz de dissimilaridade calcu-

lada a partir da série de dados. Análise de cluster oferece informações detalhadas

sobre a relação entre indivíduos. Com isto determinamos o quanto é preciso o

conglomerado. Com a aplicação da técnica de reamostragem multiescala boot-

strap Tumminello et al. [2007], testa-se a hipótese dos p-valores. Este método

é baseado na reamostragem de dados, e é aplicavél a uma grande classe de

problemas, incluindo agrupamento hierárquico.

2.11.1 Técnica de Reamostragem Multiescala Bootstrap

Dado um conjunto de amostras, ou seja,

X ′ =

[X1 X2 . . . Xn

],

a técnica de bootstrap trata a amostra observada como se esta fosse toda a

população. Seja

X ′j =

[x1j x2j . . . xkj

]j-esima amostra contendo k observações, construir B amostras X∗1j ,X∗2j , ...,

X∗Bj i.i.d. de comprimento k. Na terminologia de bootstraping amostras i.i.d.

construídas a partir da população �nita[x1j x2j . . . xkj

]corresponde a

amostrar com substituição os elemento do vetor aleatório Xj .

3 Análise de Dados

Investigou-se as propriedades estatísticas do log-retorno do preço de 84 ações

negociadas na Bolsa de Valores de São Paulo no período 04-01-2010 a 30-12-

2010, totalizando 248 dias de negociações. Essas ações pertencem a 8 setores

25

Page 26: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

econômicos diferentes de acordo coma a classi�cação que se encontra no site

da BOVESPA. A série de dados foi particionada em dois conjuntos de dados

igualmente espaçados temporalmente, ou seja, 6 meses de registro para cada

conjunto e um terceiro conjunto de dados que trata a série completa, ou seja

compreende o ano todo de 2010, vale notar que trabalhou-se com o log-retorno

do preços de fechamento e 4t = 1dia. Para cada um dos conjuntos de dados

�zemos B = 1000 simulações para que se pudesse veri�car a robustez dos cluster

obtidos. De posse deste conjunto de dados. Na Figura 1 temos as empresas que

foi coletada a série de dados.

Figura 1: Lista das 84 empresas estudadas.

3.1 Análise dos coe�cientes de correlação

Calculamos os coe�cientes de correlação do vetor aleatório que compões cada

uma das séries (ações) com todas as outras séries (ações), capa cada um dos

três conjuntos. Com os dados construímos a matriz de correlação que é uma

matriz simétrica nxn, sendo que n é o número de ações (84), cujo os seus

elementos são os coe�cientes ρij com ρii = 1 na diagonal principal. Totalizando

n (n−1)2 coe�cientes distintos. Nas Figura 2, 3 e 4 podemos ver mapa da matriz

de correlação que nos mostra como estão distribuída os valores da matriz de

correlação. Percebe-se pelo contraste do mapa da matriz de correlação que o

Figura 3 é possui tons mais parecido com o da Figura 4, do que com o Figura

26

Page 27: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

3. O que nos leva a inferir que a informação contida na matriz de correlação do

segundo semestre está mais próxima da informação da matriz de correlação do

ano.

Figura 2: Mapa da matriz de Correlação dos dados analisados do primeirosemestre de 2010

27

Page 28: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 3: Mapa da matriz de Correlação dos dados do segungo semestre de 2010

Figura 4: Mapa da matriz de Correlação dos dados analisados no ano de 2010

Os dendrogramas foram obtidos a partir da matriz de distância ultramétrica

28

Page 29: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

que se utiliza da matriz de correlação, usando como critério de criação de con-

glomerado de Ward. A Figura 5 ilustra o dendrograma obtido para os dados

correspondente ao primeiro semestre de 2010. O retângulo vermelho que vemos

na �gura é o teste bootstrap com α = 0.90 de que o cluster assinalados pelo

retângulo indicam uma forte semelhança com nível de signi�cância α = 0.90.

Repetimos a análise de Bootstrap para outros valores de α = 0.95 , α = 0.99 e

α = 0.999 que podem ser observados nas Figuras 5, 6 e 7.

Figura 5: Dendrograma da série temporal do primeiro semestre de 2010 comα = 0.90, identi�cado pelo retângulo vermelho

29

Page 30: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 6: Dendrograma da série temporal do primeiro semestre de 2010 comα = 0.95, identi�cado pelo retângulo vermelho

Figura 7: Dendrograma da série temporal do primeiro semestre de 2010 comα = 0.99, identi�cado pelo retângulo vermelho

30

Page 31: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 8: Dendrograma da série temporal do ano de 2010 com α = 0.999,identi�cado pelo retângulo vermelho

A Figura 9 ilustra o dendrograma obtido para os dados correspondente ao

primeiro semestre de 2010. O retângulo vermelho que vemos na �gura é o teste

bootstrap com α = 0.90 de que o cluster assinalados pelo retângulo indicam

uma forte semelhança. Repetimos a análise de Bootstrap para outros valores de

α = 0.90, α = 0.99 eα = 0.999 que podem ser observados nas Figuras 10, 11 e

12.

31

Page 32: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 9: Dendrograma da série temporal do primeiro semestre de 2010 comα = 0.90, identi�cado pelo retângulo vermelho

Figura 10: Dendrograma da série temporal do segundo semestre de 2010 comα = 0.95, identi�cado pelo retângulo vermelho

32

Page 33: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 12: Dendrograma da série temporal do primeiro semestre de 2010 comα = 0.999, identi�cado pelo retângulo vermelho

Figura 11: Dendrograma da série temporal do primeiro segundo de 2010 comα = 0.99, identi�cado pelo retângulo vermelho

A Figura 13 ilustra o dendrograma obtido para os dados correspondente ao

ano de 2010. O retângulo vermelho que vemos na �gura é o teste bootstrap

com α = 0.90 de que o cluster assinalados pelo retângulo indicam uma forte

33

Page 34: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

semelhança. Repetimos a análise de Bootstrap para outros valores de α = 0.90,

α = 0.99 eα = 0.999 que podem ser observados nas Figuras 14, 15 e16.

Figura 13: Dendrograma da série temporal do ano de 2010 com α = 0.90,identi�cado pelo retângulo vermelho

Figura 14: Dendrograma da série temporal do ano de 2010 com α = 0.95,identi�cado pelo retângulo vermelho

34

Page 35: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Figura 15: Dendrograma da série temporal do ano de 2010 com α = 0.99,identi�cado pelo retângulo vermelho

Figura 16: Dendrograma da série temporal do ano de 2010 com α = 0.999,identi�cado pelo retângulo vermelho

Na Figura 16 onde se tem o dendrograma da série anual identi�ca-se 7 cluster

com nível de signi�cância α = 0.999, comparando com as Figuras 8 e 12 para

o mesmo nível de signi�cância α = 0.999 , veri�ca-se que os cluster gerados

35

Page 36: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

no primerio semestre possui em comum apenas dois clusters que são (PETR3,

PETR4) e (USIM3, USIM4), porém quando olhamos para o dendrograma do

segundo semetre encontramos 6 cluster em comum dos 7 existentes. Note que o

cluster formado por (ELET3, ELET5) estão em comum tanto no dendrograma

do primerio quanto do segundo semestre, porém já não aparece no dendrograma

anual, este cluster só vai aparecer no dendograma anual quando baixamos o

nível de signi�cância para α = 0.99 como se pode notar na Figura 15. Quando

olhamos o dendogramas do primeiro semestre notamos uma maior incerteza na

de�nição dos cluster quando olhamos com um nível de signi�cância α = 0.90,

fato este que não ocorre quando fazemos a mesma análise no dendrograma do

segundo semestre. Esta incerteza na determinação da coesão dos cluster pode

afetar quando formos compor nossa carteira de ativos, pois objetivamos sempre

diversi�car o risco, e para isto, precisamos ter clusters coesos. Quando baixamos

o nível de signi�cância α = 0.99 do dendrograma do primeiro semestre, veri�ca-

se um aumento do número de cluster em corcondância com o dendrograma

anual, Figuras 7 e 16.

Com esta mudança estrutural dos dendrograma percebe-se que o processo

de clusterização é afetado pelo tempo para a grande maioria das ações.

Esses resultados indicam que é possível extrair informações comuns que afe-

tam grupos de ações de uma carteira selecionada a partir de séries temporais do

log-retorno dos preçõs das ações. Através do estudo do dendrograma observamos

que a escala de tempo das variações das informações contidas no dendrograma é

maior que seis meses para os cluster mais robustos, como pode ser veri�cado com

os cluster formados pelas ações (BRAP4, VALE3, VALE5), (GOLL4, TAMM4),

(USIM3, USIM5). (PETR4. PETR3) e (GGBR3, GGBR4).

4 Conclusões e Perspectivas

Conseguimos a partir das séries temporais log-retorno das ações obter infor-

mação que podem ser usadas para a composição de uma carteira de investimen-

tos. Observamos que a escala de tempo das variações das informações contidas

no dendrograma é maior que seis meses, isto é, o dendrograma entre os períodos

analisado manteve algumas características.

Para um próximo trabalho podemos fazer um levantamento dos setores

ecocômico das ações e do volume negociado. Como também analisar uma série

de dados maior o que possibilitaria utilizar a teoria das matrizes aleatórias.

Esses resultados indicam que é possível extrair informações comuns que afe-

36

Page 37: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

tam grupos de ações de uma carteira selecionada a partir de séries temporais

do log-retorno dos preçõs das ações. Através do estudo do dendrograma obser-

vamos que a escala de tempo para das variações das informações contidas no

dendrograma é maior que seis meses, como pode ser veri�cado com os cluster

formados pelas ações (BRAP4, VALE3, VALE5), (GOLL4, TAMM4), (USIM3,

USIM5). (PETR4. PETR3) e (GGBR3, GGBR4).

37

Page 38: 2CUsersra000000DesktopJosimarPREVERM1301100.jpg …vigo.ime.unicamp.br/Projeto/2011-1/ms777/ms777_Clayton.pdf · estatístico das riquesas individuais em uma econômia estável usando

Referências

Ravindra K. Ahuja, Thomas L. Magnanti, and James B. Orlin. Network

Flows: Theory, Algorithms, and Applications. Prentice Hall, 1 edition, Febru-

ary 1993. ISBN 9780136175490. URL http://www.worldcat.org/isbn/

013617549X.

L. Bachelier. [ph.d. thesis], annales scienti�ques de l'ecole normale supérieure

iii-17. 1900.

Giovanni Bonanno, Fabrizio Lillo, and Rosario N. Mantegna. High-frequency

cross-correlation in a set of stocks. Quantitative �nance papers, arXiv.org,

2000. URL http://econpapers.repec.org/RePEc:arx:papers:cond-mat/

0009350.

L. L. Elon. ESPAÇOS METRICOS. IMPA, 2003. ISBN 9788524401589.

R.N. Mantegna. Hierarchical structure in �nancial markets. The European

Physical Journal B - Condensed Matter and Complex Systems, 11:193�197,

1999. ISSN 1434-6028. URL http://dx.doi.org/10.1007/s100510050929.

10.1007/s100510050929.

R.N. Mantegna and H.E. Stanley. An introduction to econophysics: correla-

tions and complexity in �nance. Cambridge University Press, 2000. ISBN

9780521620086. URL http://books.google.com/books?id=8aMhcsLMhMgC.

A. S. Mingori. Análise de Dados Através de Métodos de Estatística Multivariada.

Editora UFMG, 2007. ISBN 978857041451.

P. H. A. Sneath. The application of computers to taxonomy. Microbiology-sgm,

17:201�226, 1957. doi: 10.1099/00221287-17-1-201.

G. H. Triola. Introdução à Estatística. LTC, 2005. ISBN 9788521614319.

M. Tumminello, C. Coronnello, F. Lillo, S. Micciche', and R. N. Mantegna.

Spanning trees and bootstrap reliability estimation in correlation based net-

works. INT.J.BIFURCATION CHAOS, 17:2319, 2007. URL doi:10.1142/

S0218127407018415.

J. Voit. The statistical mechanics of �nancial markets. Texts and monographs in

physics. Springer, 2005. ISBN 9783540262855. URL http://books.google.

com/books?id=V6oMS3K38BsC.

38