modelo de tcc para o curso de ciência da computação da …siaibib01.univali.br/pdf/marcelo...

UNIVERSIDADE DO VALE DO ITAJAÍ

CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES

Área de Inteligência Artificial

por

Marcelo Berenstein

Benjamin Grando Moreira, M.Eng.

Orientador

Itajaí (SC), junho de 2010

UNIVERSIDADE DO VALE DO ITAJAÍ

CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

USO DE MINERAÇÃO DE DADOS NA BOLSA DE VALORES

Área de Inteligência Artificial

por

Marcelo Berenstein

Relatório apresentado à Banca Examinadora do

Trabalho de Conclusão do Curso de Ciência da

Computação para análise e aprovação.

Orientador: Benjamin Grando Moreira, M.Eng.

Itajaí (SC), junho de 2010

ii

SUMÁRIO

LISTA DE

ABREVIATURAS.................................................................................... iv

LISTA DE FIGURAS ................................................................................. v

LISTA DE TABELAS ............................................................................... vi

RESUMO ................................................................................................... vii

ABSTRACT .............................................................................................. viii

1 INTRODUÇÃO .................................................................................... 1

1.1 PROBLEMATIZAÇÃO..................................................................................... 3

1.1.1 Formulação do Problema ................................................................................ 3

1.1.2 Solução Proposta .............................................................................................. 3

1.2 OBJETIVOS ....................................................................................................... 4

1.2.1 Objetivo Geral .................................................................................................. 4

1.2.2 Objetivos Específicos ....................................................................................... 4

1.3 METODOLOGIA ............................................................................................... 5

1.4 ESTRUTURA DO TRABALHO ...................................................................... 6

2 FUNDAMENTAÇÃO TEÓRICA ........................................................ 8

2.1 BOLSA DE VALORES ...................................................................................... 8

2.1.1 Ações .................................................................................................................. 9

2.1.2 BM&FBovespa ............................................................................................... 14

2.1.3 Análise de Investimento ................................................................................. 17

2.2 MINERAÇÃO DE DADOS ............................................................................. 24

2.2.1 Fases ................................................................................................................ 26

2.2.2 Tarefas ............................................................................................................. 30

2.2.3 Técnicas ........................................................................................................... 32

2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS ...................................... 34

2.3.1 Weka ................................................................................................................ 35

2.3.2 SAS Enterprise Miner ................................................................................... 36

2.3.3 Intelligent Miner ............................................................................................ 37

2.3.4 Quadro comparativo ...................................................................................... 39

2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO ............. 41

2.5 TRABALHOS SIMILARES ............................................................................ 42

2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de

ação............................................................................................................................ 42

2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de

investimentos com restrições de cardinalidade ..................................................... 42

2.5.3 Modelo Genético-Neural de gestão de carteiras de ações .......................... 43

2.5.4 Uso de Data Mining no mercado financeiro ................................................ 43

iii

2.5.5 Uma investigação estatística sobre análise técnica ..................................... 44

2.5.6 Análise comparativa ...................................................................................... 44

3 PROJETO ............................................................................................. 46 3.1 PRÉ-PROCESSAMENTO .............................................................................. 46

3.1.1 Seleção ............................................................................................................. 47

3.1.2 Limpeza ........................................................................................................... 48

3.1.4 Enriquecimento .............................................................................................. 50

3.1.3 Codificação ..................................................................................................... 51

3.2 PROCESSAMENTO ........................................................................................ 52

3.2.1 Inicialização da Ferramenta ......................................................................... 53

3.2.2 Tarefa utilizada .............................................................................................. 54

3.2.3 Técnicas utilizadas ......................................................................................... 56

3.2.4 Resultados Obtidos ........................................................................................ 59

3.3 PÓS-PROCESSAMENTO ............................................................................... 72

3.3.1 Validação e simplificação do modelo ........................................................... 72

3.3.2 Transformação do modelo e apresentação dos resultados ........................ 77

3.3.3 Análise dos resultados .................................................................................... 79

4 CONCLUSÕES .................................................................................... 80

REFERÊNCIAS BIBLIOGRÁFICAS ................................................... 84

iv

LISTA DE ABREVIATURAS

AG Algoritmo Genético

ANBID Associação Nacional dos Bancos de Investimento

BC Banco Central

BM&FBOVESPA Bolsa de Valores, Mercadorias e Futuros

BOVESPA Bolsa de Valores do Estado de São Paulo

CVM Comissão de Valores Mobiliários

DM Data Mining

IA Inteligência Artificial

KDD Knowledge Discovery in Databases

JRIP Incremental Reduced Erro Prunning

ON Ordinárias

ONU Organização das Nações Unidas

PART Partial decision trees

PN Preferenciais

RN Redes Neurais

TCC Trabalho de Conclusão de Curso

UNCTAD Conferência das Nações Unidas para o Comércio e o Desenvolvimento

UNIVALI Universidade do Vale do Itajaí

WEKA Waikato Environment for Knowledge Analysis

v

LISTA DE FIGURAS

Figura 1. Formação de preço 1 ........................................................................................................... 13



Figura 4. Small caps ........................................................................................................................... 23

Figura 5. DM multidisciplinar ............................................................................................................ 25

Figura 6. Processo de DM .................................................................................................................. 26

Figura 7. Weka pré-processamento .................................................................................................... 36

Figura 8. Comparatico de técnicas SAS ............................................................................................. 37

Figura 9. Intelligent Miner Agrupamento .......................................................................................... 38

Figura 10. Base de dados original ...................................................................................................... 49

Figura 11. Base de dados Excel ......................................................................................................... 50

Figura 12. Base de dados enriquecida ................................................................................................ 51

Figura 13. Base de dados arff ............................................................................................................. 52

Figura 14. Arquivo de entrada no Weka ............................................................................................ 54

Figura 15. Interface da tarefa de classificação ................................................................................... 55

Figura 16. Exemplo de árvore de decisão .......................................................................................... 57

Figura 17. Exemplo de regras de classificação .................................................................................. 57

Figura 18. Algoritmos de árvores de decisão no Weka ...................................................................... 58

Figura 19. Algoritmos de regras de classificação no Weka ............................................................... 59

Figura 20. Execução do algoritmo J48 ............................................................................................... 63

Figura 21. Árvore do algoritmo J48 ................................................................................................... 64

Figura 22. Estatísticas do algoritmo J48 ............................................................................................ 65

Figura 23. Matriz de confusão do algoritmo J48 ............................................................................... 66

Figura 24. Execução do algoritmo JRip ............................................................................................. 67

Figura 25. Estatísticas do algoritmo JRip ........................................................................................... 68

Figura 26. Matriz de confusão do algoritmo JRip .............................................................................. 69

Figura 27. Execução do algoritmo PART .......................................................................................... 70

Figura 28. Estatísticas do algoritmo PART ........................................................................................ 71

Figura 29. Matriz de confusão do algoritmo PART ........................................................................... 72

Figura 30. Regras do J48 com resultado Banco do Brasil..... ........................................................... 75

Figura 31. Regras do J48 com resultado Rossi..... ............................................................................ 76

Figura 32. Descobertas do algoritmo J48............................ ............... ............................................... 78

Figura 33. Ferramenta Desenvolvida............................ ............... ..................................................... 78

vi

LISTA DE TABELAS

Tabela 1. Tipos de ordens .................................................................................................................. 12

Tabela 2. Principais referências da cotação ....................................................................................... 14

Tabela 3. Índices de bolsas no mundo ................................................................................................ 15

Tabela 4. Fundamentalista X Técnica ................................................................................................ 20

Tabela 5. Tipos de Riscos .................................................................................................................. 21

Tabela 6. Quadro comparativo de ferramentas .................................................................................. 40

Tabela 7. Lista de ativos selecionados ............................................................................................... 48

vii

RESUMO

BERENSTEIN, Marcelo. Uso de Mineração de Dados na Bolsa de Valores. Itajaí, 2010. 95 f.

Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)–Centro de Ciências

Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2010.

Nos últimos anos o Brasil tem se tornado alvo predileto de investidores, principalmente

estrangeiros, devido ao grande potencial verificado nas ações de empresas brasileiras listadas em

Bolsa de Valores, chegando esta a se popularizar entre nós brasileiros, sendo crescentes os

resultados obtidos por investidores em nosso mercado. Mas como interpretar o movimento destes

ativos e conseguir uma segurança maior com rendimentos acima da média em um mercado novo,

onde num passado recente era visto somente por apostadores e especuladores, sem nenhum

fundamento. Com o objetivo de descobrir possíveis padrões, tendência e correlações significativas

na analise do histórico das cotações dos ativos da Bolsa de valores (Bovespa), o projeto compreende

o uso da metodologia de Mineração de Dados aplicada a nossa Bolsa Brasileira, essa metodologia

envolve modernos recursos da Computação, usando técnicas de Inteligência Artificial que são

aplicados aos dados históricos das cotações de nossas ações listadas em Bolsa. Como resultados

tivemos algumas descobertas feitas pelo algoritmo J48 que foram validadas pelo modelo de

validação aplicado neste trabalho e que apresentaram movimentos similares de determinados ativos

em períodos específicos, e além do mais nos mostrou o potencial que a metodologia de Mineração

de Dados tem disponível para realizar estas tarefas. Então a elaboração desse projeto neste mercado

financeiro foi importante e poderá ser ainda mais tanto para a área de computação quanto para a

área de investimentos, provando que a junção desses dois conhecimentos é uma boa estratégia para

alcançar os objetivos de especialistas das duas áreas e trazer benefícios enormes aos investidores, às

corretoras, às instituições financeiras e demais entes sociais que visem realizar descobertas do

mercado acionário e conseqüentemente trazer informações relevantes para a tomada de decisões nos

pregões diários da Bovespa.

Palavras-chave: 1. Mineração de Dados 2. Inteligência Artificial 3. Bolsa de Valores

viii

ABSTRACT

In recent years Brazil has become a favorite target for investors, especially foreigners, due to the

large potential found in the actions of Brazilian companies listed on the Stock, coming to be

popular among us, Brazilians, and increasing the results obtained by investors in our market. But

how to interpret the movement of these assets and achieve greater security with incomes above the

average in a new market, where in the recent past was seen only for gamblers and speculators, with

no foundation. Aiming to discover possible patterns, trend analysis and significant correlations in

the history of the prices of assets of the Stock Exchange (Bovespa), the project includes the use of

data mining methodology applied to our Brazilian stock exchange, this methodology involves

modern resources Computing, using artificial intelligence techniques that are applied to historical

data of the prices of our shares listed on the Stock Exchange. As a result we had some discoveries

made by the algorithm J48 which was validated by the validation model applied in this work, and

had similar movements of certain assets in specific periods, and furthermore has shown the

potential of data mining methodology is available to perform these tasks. So the development of this

project in this financial market was important and could be even more so for the computing field

and for the investment area, proving that the addition of these two skills is a good strategy to

achieve the goals of experts of the two areas and bring huge benefits to investors, the brokerages,

financial institutions and other entities aimed at making discoveries social stock market and

therefore bring relevant information for making decisions in daily sessions of the Bovespa.

Keywords:Data Mining. Artificial Intelligence. Stock Exchange.

1 INTRODUÇÃO

Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais do que a

BOVESPA (Bolsa de Valores do Estado de São Paulo), em dólar, seus investidores ganharam 87%

no período e se tornaram a quarta maior bolsa do mundo em valor de mercado, de janeiro a agosto

do corrente ano os investidores estrangeiros têm um saldo positivo de quase 14 bilhões de reais

(NAPOLITANO, 2009). E, mais uma notícia importante que comprova a evolução de nossa

economia com perspectivas favoráveis para o futuro de nosso mercado foi uma pesquisa realizada

pela Conferência das Nações Unidas (ONU) para o Comércio e Desenvolvimento (UNCTAD) onde

destaca que o Brasil é o quarto destino preferido para investimentos por multinacionais e

investidores do mundo todo (BOLSÃO, 2009).

Compreender o movimento das cotações dos ativos da Bolsa de Valores para investimentos

é um processo muito complexo devido à variedade enorme de ativos listados na Bovespa (centenas)

juntamente com suas cotações diárias de meses e anos de cada ativo e também com a variabilidade

e incertezas que elas sofrem por diversos fatores tornam dificílimo a análise destes dados somente

com a ação humana, havendo a necessidade de juntamente com os conhecimentos financeiros e

econômicos a ajuda da computação e mais precisamente da Mineração de Dados com técnicas da

Inteligência Artificial (IA) para a possível identificação de padrões de mercado e informações

relevantes que ajudem a potencializar a lucratividade dos investimentos em ações, com um menor

risco, através de indicações do momento mais oportuno para aplicação dos recursos em um

determinado ativo.

Mineração de Dados ou DM (Data Mining) é um conjunto de técnicas reunidas da

Estatística e da Inteligência Artificial (IA) com objetivo de descobrir conhecimento novo que esteja

“escondido” em grandes massas de dados (CARVALHO, 2001). Assim a Mineração de Dados tem

uma tarefa importantíssima neste contexto, onde lida com os inúmeros dados históricos (cotações)

de nossas ações, sendo preparados e modelados para serem processados por técnicas de Inteligência

Artificial que trazem resultados relevantes para o entendimento de nosso mercado acionário e

particularmente de alguns ativos, grupo de ativos e setor de atuação.

2

O trabalho compreende todas as etapas do processo de DM, sendo que houve a incorporação

dos dados financeiros na metodologia empregada, seguiram-se fielmente passo a passo os métodos

previstos na metodologia. Desde a preparação dos dados coletados (histórico de movimentação dos

ativos financeiros) onde foram selecionadas 17 ações com melhores fundamentos entre as centenas

existentes na Bovespa (mercado à vista). Então somente os dados relacionados a estas selecionadas

são utilizados na fase de processamento onde ocorre a execução das técnicas de Inteligência

Artificial com diversos testes sendo efetuados até que se cheguem às melhores tarefas e algoritmos

com suas respectivas configurações, inclusive a da base de dados. E o processo é finalizado com a

análise, validação e formatação dos resultados alcançados.

A maioria dos trabalhos científicos existentes no Brasil e que foram pesquisados focam a IA

em selecionar ativos através dos algoritmos de Redes Neurais e Algoritmo Genético, merecendo

destaque o projeto proposto por Fernando Rafael Stahnke desenvolvido no Centro Universitário

FEEVALE com o título “Uso de Data Mining no Mercado Financeiro”, que incorporou a seu

trabalho o uso de Data Mining. Mas o projeto proposto aqui vai além, tanto pela diversidade de

técnicas que foram experimentadas, quanto pela quantidade de ativos que constam no experimento e

a variabilidade nos atributos utilizados, buscando através do processo de Mineração de Dados

atingirem informações importantes do funcionamento de nossas ações listadas em Bolsa de Valores.

As técnicas de inteligência computacional já mostram sua eficiência nas economias

desenvolvidas (BAUE, 1994; EDDE, 1996; BOLL, 1997) apud (LAZO, 2000), mas nosso mercado

estando em ascensão e sendo diferente do deles certamente apresentará comportamentos e padrões

diferentes, havendo a necessidade de ajustes não só nas técnicas utilizadas como em toda a

metodologia empregada.

Então, a elaboração desse projeto na BM&FBOVESPA (Bolsa de Valores, Mercadorias e

Futuros) foi muito importante tanto para a área de computação quanto para a área de investimentos,

mostrando que a junção desses dois conhecimentos é uma boa estratégia para alcançar os objetivos

de especialistas das duas áreas e trazer benefícios aos investidores, as corretoras, as instituições

financeiras e demais entes sociais que visem realizar descobertas do mercado acionário e

consequentemente trazerem informações relevantes para a tomada de decisões.

3

1.1 PROBLEMATIZAÇÃO

1.1.1 Formulação do Problema

O mercado de ações é um ramo da economia onde sua previsibilidade é muito difícil de ser

traçada, até mesmo especialistas da área, com décadas de experiência, muitas vezes não conseguem

prever o seu movimento. As ações listadas em bolsa sofrem interferências diversas em suas

cotações, muitas vezes inesperadas, onde analistas tentam buscar alguma lógica, mas não

encontram. São diversos os fatores que influenciam os pregões diários que ocorrem na Bolsa de

Valores, desde movimentos especulativos, notícias relevantes, fatores da economia, situação dos

países e bolsas estrangeiras, fator psicológico dos investidores, [...].

Então como aumentar a previsibilidade desse mercado diante de tanta informação, diversos

ativos, diversas cotações, [...]? E como conseguir nos ativos selecionado da Bolsa de Valores uma

possibilidade maior de ganho correndo um menor risco? Será que há padrões nos movimentos

diários das cotações das ações? Como aproveitar o histórico destas ações para tirar conclusões sobre

seus movimentos futuros?

1.1.2 Solução Proposta

Uma das possíveis soluções pode estar na Computação, onde a junção do conhecimento

humano com a Inteligência Artificial pode ser uma boa fórmula para se chegar a uma possível

previsibilidade do mercado de ações, onde o processo de Mineração de Dados poderá nos auxiliar a

lidar com a diversidade de ações e cotações, sendo esses dados processados por técnicas de

Inteligência Artificial com a finalidade de extrair informações relevantes deste histórico obtido nos

pregões diários que ocorrem na Bolsa de Valores, informações estas que podem detectar padrões de

mercado e movimentos similares que ocorrem em um determinado ativo ou grupo de ativos em

determinados períodos de tempo.

Então foi a percepção desta solução que me motivou a desenvolver este trabalho nos moldes

que serão apresentados no decorrer de seu desenvolvimento, não esquecendo também que a

atratividade da nossa bolsa de valores no cenário internacional também foi motivo relevante para a

escolha do tema nesta área.

4

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Realizar descobertas e indicações à respeito do comportamento e movimento das cotações

dos ativos listados na bolsa de valores brasileira (BM&FBOVESPA), com apoio da mineração de

dados.

1.2.2 Objetivos Específicos

Os objetivos específicos deste projeto de pesquisa são:

Conceituar e compreender o funcionamento da Bolsa de valores juntamente com suas

técnicas de análise financeira;

Conceituar e compreender o funcionamento da Mineração de Dados (MD) e suas fases;

Efetuar a seleção e modelagem dos dados utilizando as técnicas de análise financeira e

de DM conjuntamente;

Escolher uma ferramenta que efetue o processamento dos dados;

Experimentar, avaliar e selecionar os melhores algoritmos para as tarefas pretendidas,

através da ferramenta escolhida;

Efetuar o processamento dos dados selecionados e modelados;

Validar os resultados obtidos;

Aprimorar a visualização e a interpretação dos resultados obtidos;

Implementar uma ferramenta que visualize as informações obtidas no processamento;

Realizar descobertas de nosso mercado acionário; e

Verificar a importância da Mineração de dados neste processo.

5

1.3 METODOLOGIA

Este trabalho utilizou o processo de Mineração de Dados com técnicas de Inteligência

Artificial para ser aplicado a uma base de dados que contem o histórico de cotações de alguns ativos

da Bolsa de valores com a finalidade de extrair conhecimentos relevantes dessa base de dados.

Para desenvolver este projeto foram definidas quatro etapas, sendo a primeira vinculada

mais a fundamentação do projeto, onde foram pesquisados e conceituados os temas abordados nele,

na segunda etapa o foco esteve nas ferramentas que foram utilizadas, já na terceira a preocupação

esteve na modelagem do projeto e a última etapa lidou com a documentação do TCC. Abaixo segue

com mais detalhes a metodologia aplicada às atividades constante nas etapas:

Na primeira etapa foi realizada a pesquisa de todo material bibliográfico que foi utilizado na

parte teórica do presente projeto, desde consulta a trabalhos de Conclusão de Curso e dissertações

de Mestrado, revistas, artigos, livros, consultas via Internet e demais meios. E também foram

definidos conceitos, ou seja, determinado os argumentos que foram utilizados para definir cada

metodologia e tecnologia que foi utilizada neste trabalho justificando sua aplicação.

Na segunda fase foi pesquisada e escolhida a parte de software do trabalho, ou seja,

mediante pesquisas e testes foi definida a parte operacional do projeto, realizando também a sua

validação mediante testes e análise das características, vantagens, desvantagens e resultados

obtidos.

Na etapa seguinte o projeto foi modelado, ou seja, foi definida a estrutura do trabalho desde

o pré-processamento dos dados até os resultados alcançados. A modelagem do pré-processamento

foi feita utilizando como base a metodologia descrita nos conceitos da Mineração de Dados e

também da análise financeira, sendo que as duas metodologias foram aplicadas conjuntamente

gerando dados selecionados, modelados e preparados que foram utilizados pela atividade posterior.

A atividade de processamento dos dados também foi feita utilizando a metodologia descrita nos

conceitos da Mineração de Dados, com o uso da ferramenta escolhida que contemplou os melhores

algoritmos, com a finalidade de alcançar os melhores resultados possíveis. E na ultima atividade foi

definido o pós-processamento, onde os resultados alcançados foram testados, selecionados,

transformados e validados para a conclusão do processo.

6

Na última etapa (documentação) foi registrado todo o projeto, ou seja, foi escrito toda a

modelagem e metodologia descritas nas etapas anteriores, acompanhado das considerações finais.

1.4 ESTRUTURA DO TRABALHO

O projeto está estruturado em 4 unidades, compreendendo a (1)Introdução,

(2)Fundamentação Teórica, o (3)Projeto e as (4)Considerações Finais.

Na Introdução do trabalho é dada uma visão geral de todo o projeto, incluindo a delimitação

do tema, o problema enfrentado com sua possível solução, os objetivos, os conceitos envolvidos, a

abrangência do projeto e a pesquisa de outros projetos similares.

Na Fundamentação Teórica é abordada a parte de conceituação do projeto, descrevendo

tanto os conceitos de Mineração de Dados quanto de Bolsa de Valores, não esquecendo das

ferramentas que serão utilizadas e os projetos similares. Podemos dividir a unidade nas seguintes

sessões:

Bolsa de Valores: é abordada a definição de vários conceitos da área, e estudado

também técnicas e analises de mercado;

Mineração de Dados: é dado o conceito geral, para depois explicar suas fases, tarefas

e técnicas detalhadamente;

Ferramentas de Mineração de Dados: definição das principais ferramentas

disponíveis no mercado com suas vantagens e desvantagens; e

Inteligência Artificial no mercado financeiro: é descrito a sua importância, sendo

embasada com trabalhos científicos que foram pesquisados na área.

Trabalhos Similares: é relatado trabalhos científicos que abordaram o uso da

Inteligência Artificial na Bolsa de Valores.

A próxima unidade trata do Projeto em si, ou seja, foca no desenvolvimento do trabalho e

está dividida nas seguintes sessões:

7

Pré-processamento: nesta Seção os dados serão preparados, onde serão selecionados

e modelados;

Processamento: nesta Seção os dados são introduzidos em uma ferramenta que

aplicará neles tarefas e técnicas de DM, gerando resultados; e

Pós-processamento: aqui os resultados obtidos são estudados, para uma seleção das

informações relevantes que podem ser extraídas do processo e sua conclusão.

Na última unidade do trabalho consta as Conclusões, onde é relatado um apanhado geral do

trabalho, incluindo os resultados alcançados, os problemas obtidos, as soluções adotadas, a

importância das descobertas efetuadas e os trabalhos que poderiam dar continuidade a este estudo.

2 FUNDAMENTAÇÃO TEÓRICA

Esta unidade aborda os conceitos indispensáveis para o entendimento do projeto, sendo eles

fundamentados nos mais diversos meios, tais como: Trabalhos Científicos, revistas, livros, sites

conceituados da Internet, etc.

Aborda também a fundamentação sobre o processo de Mineração de Dados, entra no

contexto da Bolsa de Valores, depois apresenta as principais ferramentas disponíveis no mercado

que podem ser utilizadas neste projeto, para em seguida finalizar com a importância da Inteligência

Artificial neste contexto e trabalhos já aplicados na área financeira que utilizam esta técnica.

2.1 BOLSA DE VALORES

Este é o campo de atuação deste projeto, onde as técnicas e metodologias computacionais

foram aplicadas nesta área, sendo então, indispensável à explicação de todos os conceitos que

fundamentam os recursos e conhecimentos que foram extraídos deste ambiente.

Pode-se dizer que quanto mais ativa é uma economia, mais ativo é o seu mercado de

capitais, o que se traduz em mais oportunidades para as pessoas, empresa e instituições aplicarem

suas poupanças. Ao abrir seu capital, uma empresa encontra uma fonte de captação de recursos

financeiros permanentes, acontecendo plenamente sua abertura quando lança ações ao público

(denominando-se uma companhia aberta), negociando-as em Bolsa de valores (BM&FBOVESPA,

2009a).

Elas têm o objetivo de manter a padronização e o regular funcionamento do mercado de

capitais, mantendo elevados padrões éticos de negociação e divulgando as transações executadas

com rapidez, detalhes e amplitude (ANBID, 2009).

9

Então, bolsa de valores é o local que oferece condições e sistemas necessários para a

realização de negócios, de onde Corretoras de Valores1 (intermediários), representando

investidores2 institucionais e individuais, reúnem-se para realizar compra e venda de ações, e

obrigações em mercado aberto, organizado e auto-regulado (BM&FBOVESPA, 2009a).

E como descrito no Guia Online do Mercado de Ações da BM&FBOVESPA (2009a) a

existência de um mercado organizado faz com que seja fácil e sem grandes esforços:

Entrar como sócio numa sociedade por ações (companhia);

Sair da sociedade;

Negociar através de representantes; e

Formalizar e legitimar as operações de compra e venda de ações.

2.1.1 Ações

É um valor mobiliário negociável, emitido pelas companhias, que representa a menor

parcela em que se divide o capital da companhia, sendo então, um pedacinho de uma empresa

(UOL, 2009).

São títulos negociados em mercados organizados, e de propriedade característico da

companhia que a emitiu, mas confere ao proprietário (ou investidor) o status de sócio ou acionista.

Sendo necessária a autorização da CVM3 (Comissão de Valores Mobiliários) para que essas

empresas possam abrir seu capital em bolsa (BM&FBOVESPA, 2009a).

1 Corretoras de Valores são instituições autorizadas a funcionar pelo Banco Central (BC) e pela Comissão de Valores

Mobiliários (CVM), onde executam operações de compra e venda de ações ou de derivativos na Bolsa, em nome de

seus clientes (BM&FBOVESPA, 2009a). 2 Investidores são indivíduos ou instituições que aplicam recursos em busca de ganhos a médio e longo prazos, que

operam nas Bolsas por meio de Corretoras e distribuidoras de valores, as quais executam suas ordens e recebem

corretagens pelo seu serviço (BM&FBOVESPA, 2009a). 3 Comissão de Valores Mobiliários é um órgão fiscalizador do mercado brasileiro de capitais, o qual também registra e

autoriza a emissão dos valores mobiliários para distribuição pública (BM&FBOVESPA, 2009a).

10

2.1.1.1 Tipos

As ações podem ser classificadas de 2 formas:

-Ordinárias: Confere ao titular os direitos essenciais do acionista, especialmente participação

nos resultados da companhia e direito de voto em Assembléia de acionistas. A cada ação ordinária

corresponde a um voto nas deliberações da Assembléia Geral, e são nominativas o que as levam a

terem a notação ON (BM&FBOVESPA, 2009a).

-Preferenciais: Dá a seu proprietário determinadas vantagens patrimoniais (prioridade na

distribuição dos dividendos, no reembolso do capital) em relação às ações ordinárias, em troca da

renúncia a outros direitos, como o direito de votar nas assembléias gerais da companhia, e são

nominativas o que as levam a terem a notação PN (BM&FBOVESPA, 2009a).

Ambas devem ser Nominativas, ou seja, seu possuidor é identificado nos livros de registro

da companhia, e as empresas podem também dentro de cada tipo criar quantas classes quiser e

emiti-las (ANBID, 2009).

Os dividendos dados aos possuidores de ações Ordinárias nem sempre são iguais ao

possuidor de ações Preferenciais. Normalmente as Preferenciais recebem percentuais maiores e

também são negociadas com maior facilidade (UOL, 2009).

Atualmente, conforme regulamentação da nossa bolsa de valores e seguindo critérios de

Governança Corporativa é exigida de uma empresa para entrar no Novo Mercado4 que ela emita

obrigatoriamente apenas ações ordinárias e/ou converta as ações primárias em ordinárias.

2.1.1.2 Compra e venda

No Brasil a compra e venda de ações é realizada na Bolsa de Valores de São Paulo

(BOVESPA), onde são feitas por meios da corretoras credenciadas pela CVM (UOL, 2009).

11

Uma ordem de compra e venda em bolsa é o ato pelo qual o cliente determina ao operador

de uma sociedade corretora (empresa constituída para realizar as operações de compra e venda de

valores mobiliários para seus clientes ou outras instituições financeiras, nos sistemas mantidos pela

bolsa de valores) que compre ou venda ativos ou direitos em seu nome, nas condições que

especificar (BM&FBOVESPA, 2009a).

O pregão à viva-voz (presencial) de ações foi desativado em 30 de setembro de 2005. Desde

o dia 3 de Outubro de 2005 há apenas 1 modalidade de pregão na BM&FBOVESPA, denominada

Mega Bolsa. No Mega Bolsa (terminais remotos), o sistema eletrônico de negociação da Bovespa, o

operador lança a ordem do cliente, informando obrigatoriamente a quantidade de ações e o preço

pelos quais deseja negociar, caso haja alguma outra ordem manifestando o interesse de compra

nestas mesmas condições, a operação é casada automaticamente, assim, o negócio está concretizado

e faltam apenas os procedimentos administrativos para a sua conclusão (BM&FBOVESPA, 2009a).

Os tipos mais comuns de ordens podem ser vistas na Tabela 1:

4 O Novo Mercado é um dos níveis de Governança Corporativa, sendo um segmento de listagem destinado à negociação

de ações emitidas por empresas que se comprometem, voluntariamente, com a adoção de práticas de governança

corporativa e transparência adicional em relação ao que é exigido pela legislação (BM&FBOVESPA, 2009).

12

Tabela 1. Tipos de ordens

A mercado Executada quando recebida, ao melhor preço

Limitada Fixa limite de preços. Executada dentro do limite ou por preço

melhor

Administrada Investidor especifica somente valor total e as características dos

valores mobiliários ou direitos que deseja comprar ou vender.

Seleção fica a critério da corretora

Discricionária Administrador de carteira ou representante de mais de 1

comitente estabelecem condições de execução da ordem.

Depois de executada, quem autorizou a operação descriminará

quantidade e preços atribuídos a cada comitente

De financiamento Compra (ou venda) em um tipo de mercado e outra

concomitante de venda (ou compra) de igual valor mobiliário

no mesmo ou em outro mercado, com prazos de vencimento

distintos

De stop Especifica o nível de preço a partir da qual a ordem deve ser

executada.

- Stop de compra: deve ser executada a partir do momento em

que, no caso de alta de preços, ocorra um negócio a preço igual

ou superior ao preço especificado

- Stop de venda: deve ser executada a partir do momento em

que, no caso de baixa de preços, ocorra um negócio a preço

igual ou inferior ao preço especificado

Fonte: BM&FBOVESPA (2009a).

2.1.1.3 Formação do preço

Ao iniciar o pregão de um dia de negociações, cada ação tem um preço referencial. Este

preço foi a cotação de fechamento do dia anterior. E como descrito no Guia Online do Mercado de

Ações da BM&FBOVESPA (2009a) ele é influenciado por diversos fatores, tais como:

Fluxo de oferta e procura da ação;

Comportamento histórico dos preços;

Projeção da performance da empresa; e

Notícias sobre a empresa.

As Figuras 1, 2 e 3 auxiliam a entender o primeiro item deste processo:

13

Figura 1. Formação do preço 1


Figura 2. Formação do preço 2 Figura 3. Formação do preço 3

Fonte: BM&FBOVESPA (2009a). Fonte: BM&FBOVESPA (2009a).

Observa-se que na Figura 1 a oferta e a procura por uma determinada ação estão

estabilizadas, logo o seu preço tende a permanecer inalterado, neste caso, no valor de 1,00. Na

Figura 2 a procura possui um peso maior, ou seja, há uma quantidade maior de investidores

interessado neste ativo e em contrapartida a disponibilidade dele no mercado está reduzida (oferta

menor), logo seu preço tende a oscilar, aumentado seu valor. E na Figura 3 ocorre o inverso da

Figura 2, onde a oferta é maior que a procura e seu valor tende a diminuir. E resumidamente,

podemos dizer que o valor de uma ação é o quanto o mercado está disposto a pagar por ela.

2.1.1.4 Cotações

Cotação é o preço de qualquer ativo submetido à oferta e procura, em negociações no

mercado financeiro. As cotações são listadas em ordem alfabética de negócios realizados, em dois

14

blocos separados: cotações em R$ por ação (fator de cotação = 1) e cotação em R$ por lote de mil

ações (fator de cotação = 1.000) (BM&FBOVESPA, 2009a).

Na Tabela 2 são descritas as principais referências onde as cotações de uma determinada

ação são aplicadas:

Tabela 2. Principais referências da cotação

Abertura Primeira cotação, na abertura de negócios de um dia de

negociações

Fechamento Ultima cotação, no encerramento de negócios

Máxima Maior cotação do dia

Média Cotação média do dia

Mínima Menor cotação do dia

Último Ultima cotação do dia

Oscilação Porcentual de variação em relação ao fechamento do dia

anterior

Oferta de compra Cotação da última oferta de compra registrada

Oferta de venda Cotação da última oferta de venda registrada

Negócios (nº) Quantidade de negócios realizados com cada ação

Negócios (quant.) Quantidade de ações negociadas


2.1.2 BM&FBovespa

A BM&FBOVESPA S.A. – Bolsa de Valores, Mercadorias e Futuros foi criada em 2008

com a integração entre a Bolsa de Mercadorias e Futuros (BM&F) e a Bolsa de Valores de São

Paulo (BOVESPA). Juntas, as companhias formam uma das maiores bolsas do mundo em valor de

mercado, a segunda das Américas, e a líder na América Latina (BM&FBOVESPA, 2009a).

No cenário global, em que acompanhar a velocidade das transformações torna-se um

diferencial competitivo, a BM&FBOVESPA apresenta atraentes opções de investimento com custos

de operação alinhados ao mercado. Então, sua missão merece ser observada, sendo definida como:

Atuar na dinâmica macroeconômica de crescimento do mercado latino-americano e posicionar não

apenas a Bolsa, mas também o Brasil como centro financeiro internacional de negociação de ações,

commodities e outros instrumentos financeiros, com excelência operacional e atitudes socialmente

responsáveis (BM&FBOVESPA, 2009a).

15

2.1.2.1 Índice

Um índice de ações indica a variação média de preços de um conjunto de ações, conhecida

como carteira teórica, em um determinado período. Sua variação é medida em percentual e seus

valores são expressos em pontos (ANBID, 2009).

São criados a partir de regras específicas que selecionam os papéis que vão compor sua

carteira e servem como ponto de referência (benchmark) para mensurar o desempenho de

determinado mercado, conjunto de empresas ou ações de um setor específico (ANBID, 2009).

Praticamente, todas as bolsas de valores do mundo, visando medir seu desempenho, têm

seus próprios índices de ações (BM&FBOVESPA, 2009a). Alguns dos índices mais conhecidos do

mundo seguem na Tabela 3:

Tabela 3. Índices de Bolsas no mundo

Bolsas Índices

Bolsa de Valores de Nova York S&P - Standard & Poor`s 100,

DJIA – Dow Jones Industrial Average e

Nyse – Composite Index

Bolsa de Hong Kong Hang Seng Index

Bolsa Nasdaq Nasdaq Composite Index

Bolsa de Tóquio Nikkei Index

Bolsa de Londres FT 100

Bolsa do comércio de Buenos Aires Merval

Bolsa de Frankfurt DAX

Bolsa de Madri Latibex (ações da América Latina)

Bourse de Paris FTSEuroFirst 80

Borsa Italiana S&P-MIB


O principal índice que mede a nossa bolsa é o índice Bovespa, ele acompanha a evolução

média das cotações das ações negociadas na bolsa de valores de São Paulo. Ele é o valor atual, em

moeda corrente, de uma carteira teórica de ações. A carteira teórica é integrada pelas ações que, em

conjunto, representam 80% do volume transacionado a vista nos 12 meses anteriores à formação da

carteira (BM&FBOVESPA, 2009a).

16

Conforme regra da própria BM&FBOVESPA (2009a), a carteira teórica do índice Bovespa

é composta pelas ações que atenderam cumulativamente aos seguintes critérios, com relação aos

doze meses anteriores à formação da carteira:

Estar incluída em uma relação de ações cujos índices de negociabilidade somados

representam 80% do valor acumulado de todos os índices individuais;

Apresentar participação, em termos de volume, superior a 0,1% do total; e

Ter sido negociada em mais de 80% do total de pregões do período.

O índice Bovespa sofre de 4 em 4 meses uma reavaliação, onde se pode alterar tanto sua

composição quanto o peso de cada ativo na carteira, com a finalidade de que sua representatividade

se mantenha ao longo do tempo.

2.1.2.2 Cenário atual

Merece destaque este item por ter grande relevância no presente estudo, já que o campo de

atuação deste projeto está ligado as suas perspectivas futuras, então, o cenário atual em que se

encontra nossa bolsa brasileira deve ser considerado, onde sua situação atual não poderia ser

melhor, sendo as perspectivas de futuro as melhores possíveis não havendo precedentes iguais

vistos no passado histórico de nosso mercado, então as noticias que serão descritas abaixo vem para

embasar o momento em que vivemos e para ainda mais destacar a importância deste estudo na

nossa Bolsa de valores. Abaixo serão transcritas noticias extraída da Revista Exame, conceituada

revista no ramo financeiro e econômico, que foram expostas na edição de Agosto de 2009:

Nos primeiros sete meses de 2009 não houve bolsa no mundo que valorizasse mais

do que a BM&FBovespa. Em dólar, seus investidores ganharam 87% no período. A

segunda bolsa com maior valorização foi a Xangai, na pujante China, com 79% de

ganhos em dólar.

A bolsa brasileira é hoje a quarta maior do mundo em valor de mercado. E a 12ª

quando se soma o valor das ações das 432 companhias negociadas. Juntas, elas

valem hoje 1 trilhão de dólares.

17

De janeiro a agosto, os investidores estrangeiros têm um saldo positivo de quase 14

bilhões de reais na BM&FBovespa. Apenas em maio, mês que registrou o recorde

histórico de aportes internacionais, foram investidos 6 bilhões de reais.

Desde 2004, o valor total das companhias negociadas dobrou. E os recursos

levantados nas ofertas de ações feitas por elas somaram 180 bilhões de reais.

A bolsa brasileira abrigou em 2009 a segunda maior abertura de capital do mundo, a

da processadora de operação com cartões Visanet. Em julho, o banco espanhol

Santander anunciou que fará aqui uma oferta de ações de sua operadora local que

poderá chegar a 7 bilhões de reais – é a primeira vez que uma multinacional escolhe

o mercado brasileiro para levantar tamanha quantidade de recursos.

E complementando o último tópico, a revista Veja noticiou em outubro de 2009 os

resultados obtidos com a oferta pública das ações do Banco Santander: “[...] tornou-se a maior da

história da Bolsa de Valores de São Paulo (Bovespa). De acordo com informações divulgadas pela

Comissão de Valores Mobiliários (CVM), a operação movimentou 14,1 bilhões de reais, para um

total de 600 milhões de ações [...] (VEJA, 2009).

2.1.3 Análise de investimento

Este item é de extrema importância para o correto entendimento deste projeto, pois a

metodologia empregada neste projeto utiliza amplamente os conceitos e análises que estão

expressas aqui.

2.1.3.1 Análise Fundamentalista X Análise Técnica

No mercado de ações existem duas escolas de análises feitas pelos especialistas da área,

sendo elas a análise Fundamentalista e a análise Técnica.

Como os fundamentos destas metodologias serão utilizados em nosso processo de

Mineração de Dados ou KDD (Knowledge Discovery in Databases – Descoberta de Conhecimento

18

em Bases de Dados), a Fundamentalista no Pré-processamento para a seleção de ativos e a Técnica

na Mineração de Dados propriamente dita, é importantíssimo que sejam observadas as diferenças

entre as duas escolas.

A Fundamentalista foca o longo prazo e é baseada nos fatores e fundamentos econômicos,

dependendo de estatísticas, projeções, condições de oferta e demanda e fundamento das empresas

como ramos de atuação, perspectivas de mercado, demonstrativos financeiros, relatórios entre

outros (BM&FBOVESPA, 2009a).

Pinheiro (2005) define a análise Fundamentalista como sendo “o estudo de toda a

informação disponível no mercado sobre determinada empresa, com a finalidade de obter seu

verdadeiro valor, e assim formular uma recomendação de investimento”.

E Pinheiro (2005) ainda finaliza seu conceito sobre a escola Fundamentalista dizendo que:

“Portanto, estuda os fatores que explicam o valor intrínseco de uma empresa, setor ou mercado,

colocando em segundo plano os valores de mercado, como preço e volume. Esses fatores são

chamados de valores fundamentalistas”.

Já a análise Técnica destina-se ao curto prazo (entre 4 semanas e 6 meses) e é baseada na

interpretação dos gráficos de preços dos ativos, volumes e outros indicadores, mostrando como os

preços se comportaram no passado, projetando uma série de expectativas de movimentos de preços

no futuro (BM&FBOVESPA, 2009a).

Conforme Guia da BM&FBOVESPA (2009a) o analista Técnico tem os seguintes

pensamentos:

O preço de hoje desconta eventos futuros;

Algumas vezes, os preços se movimentam numa tendência perceptível;

O ser humano tende a não mudar de comportamento; e

19

O ser humano pode se reunir e atuar como uma massa com mentalidade coletiva diversa

daquela que tem como indivíduos.

A BM&FBOVESPA (2009a) ainda definiu em seu manual alguns objetivos que a escola

técnica possui:

Conhecer e mensurar a lei de oferta e procura;

Identificar oportunidades de operações atraentes e as melhores situações de retorno em

relação ao risco;

Otimizar as entradas e saídas do mercado;

Determinar limites nas oscilações dos preços; e

Estabelecer estratégias de risco.

“Portanto, essa análise é o estudo de como os preços se movimentam, não se preocupando

como porquê de eles se movimentarem.” (PINHEIRO, 2005).

A Tabela 4 a seguir define bem as características apresentadas por cada escola, com as

principais diferenças entre elas:

20

Tabela 4. Fundamentalista X Técnica

Itens Fundamentalista Técnica

Idade 30 anos 100 anos

Origem Acadêmica Profissional

Usuário Administradores de fundos e

investidores no longo prazo

Especulador

Pergunta Por quê? Quando?

Análises Econômico-financeira Gráfica

Hipóteses Básicas Existe um valor real ou

intrínseco para cada ação que

está diretamente correlacionado

com o desempenho da empresa

Os preços das ações

movimentam-se em

tendências e existe uma

dependência significativa

entre as oscilações dos preços

que se sucedem

Objetivos Determinar o valor real de uma

ação

Determinar a tendência de

evolução das cotações no

curto prazo, a fim de se

aproveitar das rápidas

oscilações para auferir ganhos

de capital (vender as ações por

um preço superior ao da

compra)

Fonte: Adaptado de Pinheiro (2005).

É muito difícil encontrar no mercado de investimentos, analistas que utilizem apenas uma

das duas técnicas de análise, mas sim, conjuntamente, já que a Fundamentalista serve para indicar

em quais ações investir e a Técnica em que momento investir (PINHEIRO, 2005).

Então, atualmente não há um consenso sobre qual das duas seria a melhor forma de análise,

mas muitos analistas dizem que a mistura das duas análises seria o melhor caminho, exatamente

como foi empregada neste projeto.

2.1.3.2 Risco

Conforme Guia da BM&FBOVESPA (2009a) risco no âmbito financeiro pode ser definido

como a probabilidade de ganho ou perda numa decisão de investimento, ou ainda, o grau de

incerteza do retorno de um investimento. E, normalmente, o risco tem relação direta com o nível de

renda do investimento, ou seja, quanto maior o risco, maior o potencial de renda do investimento.

21

A negociação de ações é considerada um investimento de alto risco. Em virtude da variação

dos preços delas, não há garantia de retorno do capital que foi investido (UOL, 2009).

Por ser um mercado de alta volatilidade5, as ações são consideradas ativos de renda variável,

ou seja, não oferecem ao investidor uma rentabilidade garantida, previamente conhecida. Assim

sendo, é considerado um investimento de risco (BM&FBOVESPA, 2009a).

Na Tabela 5 são expostos os tipos de risco que uma organização está sujeita:

Tabela 5. Tipos de Riscos

Título da Coluna 1 Título da Coluna 2

De mercado Decorre de movimentos adversos do valor dos bens relacionados no

ativo e das obrigações constantes no passivo de uma empresa

De crédito Perda econômica potencial que uma empresa pode sofrer se a

contraparte devedora não liquidar sua obrigação financeira no prazo

estipulado em contrato

De liquidez Grau de dificuldade para obtenção de meios de pagamento pela

venda de um bem e pela perda de valor que ocorrer

Legal Possibilidade de questionamento jurídico da execução dos contratos,

processos judiciais ou sentenças contrárias ou adversas àquelas

esperadas pela Instituição e que possam causar perdas ou

perturbações significativas que afetem negativamente os processos

operacionais

De fraude Possibilidade de ocorrência de evento que cause prejuízo direto ou

indireto para a organização, oriundo de ações de pessoas ou empresas

que venham subtrair recursos da contra no SITRAF de um banco

participante em favor de terceiros ou ainda de outras ações que

caracterizem ato de má-fé

De reputação ou imagem Possibilidade de ocorrer publicidade negativa, verdadeira ou não, em

relação à prática da condução dos negócios da Instituição, gerando

declínio na base de clientes, litígio ou diminuição da receita

Operacional Possibilidade de perda decorrente da falta de consistência e

adequação dos sistemas de informação, processamento e operações,

falhas nos controles internos, fraudes ou qualquer tipo de evento não

previsto


5 Volatilidade é definida como a intensidade e freqüência de variações bruscas da cotação de um ativo, índice, título ou

valor mobiliário (BM&FBOVESPA, 2009a).

22

2.1.3.3 Rentabilidade

A rentabilidade dos investidores é composta de dividendos6 ou participação nos resultados e

benefícios concedidos pela empresa emissora, além do possível ganho de capital advindo da venda

da ação no mercado secundário7 (Bolsa de Valores). O rendimento do investimento depende de

vários fatores, tais como desempenho da empresa, comportamento da economia brasileira e

internacional etc. (BM&FBOVESPA, 2009a).

E no Portal da Anbid (2009) dividendos está definido como a parte do investidor no lucro

obtido pela empresa, e descreve ainda que sempre que uma empresa tem lucros, ela reserva parte

deste resultado para distribuir a seus acionistas. Aqui no Brasil, as empresas são obrigadas a um

pagamento mínimo de dividendos de 25% do lucro.

A Lucratividade é um rendimento auferido por determinado investimento, sendo a diferença

entre o valor atual e o valor pago por um investimento. Normalmente ele é expresso sobre a forma

de porcentagem em relação ao valor dos recursos investidos inicialmente (BM&FBOVESPA,

2009a).

2.1.3.4 Blue Chips X Small Caps

Como descrito no site da BM&FBOVESPA (2009a), as ações podem ser divididas em:

De primeira linha (Blue chips): São ações de grande liquidez (grande quantidade de

negócios), e procura no mercado de ações por parte dos investidores, em geral são

empresas tradicionais, de grande porte/âmbito nacional e excelente reputação;

De segunda linha (Small caps): São ações um pouco menos líquidas, de empresas de boa

qualidade, em geral de grande e médio porte; e

6 Dividendos são uma porção dos lucros distribuídos aos acionistas em dinheiro (PINHEIRO, 2005).

7 O Mercado Primário compreende o lançamento de novas ações ao mercado, com aporte de recursos à companhia.

Após esse processo, as ações passam a ser negociadas no Mercado Secundário, que compreende as bolsas de valores e

os mercados de balcão (onde são negociadas ações que não estão sujeitas aos procedimentos especiais de negociação)

(BM&FBOVESPA, 2009a).

23

De terceira linha (Small caps): São ações com pouca liquidez, em geral de companhias

de pequeno e médio porte (porém, não necessariamente de menor qualidade), cuja

negociação caracteriza-se pela descontinuidade.

Um princípio básico de finanças diz que o retorno de um investimento é diretamente

proporcional ao risco que ele apresenta. Ou seja, quanto maior o risco, maior a

possibilidade de ganhos. De forma geral, as small caps são mais arriscadas que as blue

chips, mas quando analisamos cada ação isoladamente verificamos que nem sempre o que é

válido para o conjunto pode ser aplicado individualmente (LORENZO, 2009).

Então, decidir entre uma opção e outra é uma tarefa extremamente difícil, mas para melhor

ilustrar esta complexidade a Figura 4 apresenta como reagem as smal caps, analisado

principalmente no período agudo da crise (15 de setembro a 31 de dezembro de 2008) até o inicio

de seu afrouxamento aqui no Brasil (primeiros meses de 2009):

Figura 4. Small caps

Fonte: Economática (2009 apud LORENZO, 2009).

Logo, a Figura 4 demonstra a volatilidade que as small caps sofreram no período, onde em

um primeiro momento (agudo da crise) elas obtiveram uma queda superior ao índice que mede as

principais ações (índice Bovespa) e logo em seguida (no final da crise) obteve um desempenho bem

superior a esse mesmo índice.

24

2.2 MINERAÇÃO DE DADOS

Este é o método aplicado na base de dados para a extração de conhecimento novo, então será

detalhado todo o seu processo, incluindo sua definição, as fases que envolvem seu funcionamento,

as tarefas mais utilizadas para desempenhar seu papel e as técnicas mais importantes que são

utilizadas para que as tarefas possam cumprir seus objetivos.

Antes da definição, deve-se esclarecer que o processo de Mineração de Dados como um

todo (incluindo todas as fases) na realidade recebe outro nome, denominado KDD que significa

Descoberta de Conhecimento em bases de dados ou em inglês Knowledge Discovery in Databases,

sendo que mineração de dados é apenas uma etapa deste processo (etapa de processamento dos

dados). Popularmente o processo de KDD é conhecido como Mineração de Dados, em virtude disto,

muitos autores terminam denominando o processo como DM. Neste trabalho será utilizado o termo

Mineração de Dados tanto para definir o processo como um todo como somente a etapa de

processamento, devendo então ser analisado o contexto que ela se encontra.

Carvalho (2001) define a Mineração de Dados como a aplicação de técnicas automáticas de

exploração de grande volume de dados com a finalidade de descobrir padrões e relações que

estavam escondidos, que não seriam facilmente descobertos a olho nu pelo ser humano.

Silveira (2004 apud KLEINSCHMIDT, 2007) define como “obter informações através de

uma base de dados existente usando seus atributos para extrair informações que não são óbvias e

que precisam ser trabalhadas para serem úteis na tomada de decisão, através da utilização de

algoritmos para identificar padrões nos dados analisados”.

E Goldschmidt (2005) define como o desenvolvimento e aplicação de técnicas que permitem

obter conhecimentos novos e úteis a partir de grandes bases de dados.

Na Figura 5 conforme nos demonstra Silva (2003) a Mineração de Dados engloba em seu

processo conhecimentos de diversas áreas, possuindo técnicas de Inteligência Artificial, Banco de

Dados e Estatística.

25

Figura 5. DM multidisciplinar

Fonte: Silva (2003).

Os objetivos da Mineração de Dados segundo Fayyad (1993 apud SILVA, 2003) são a

descrição e previsão de modelos, sendo a descrição caracterizada pela descoberta de padrões

interpretáveis pelo ser humano, enquanto que a previsão é caracterizada pela utilização de variáveis

contidas dentro de bancos de dados para prever valores futuros ou desconhecidos.

Atualmente, inúmeras são as aplicações de DataMining, onde podemos citar como

exemplos: na tendência de consumo de clientes, na detecção de fraudes em arrecadações, previsão

do volume de vendas, na segmentação de mercados, no planejamento de produção e principalmente

na previsão de mercados financeiros. Contudo isso, estão sendo utilizadas com sucesso no mundo

todo, tanto em empresa nacionais como internacionais (GOLDSCHMIDT, 2005).

Podemos simplificar o processo de DM ou KDD com suas etapas operacionais como vemos

na Figura 6:

26

Figura 6. Processo de DM

Fonte: Aurélio, Vellasco e Lopes (1999 apud STAHNKE, 2008).

2.2.1 Fases

O processo é dividido em três importantes fases que serão explicadas a seguir:

2.2.1.1 Pré-processamento

Segundo Pacheco (1999, apud KLEINSCHMIDT, 2007) “A etapa de pré-processamento é

responsável por consolidar as informações relevantes para o algoritmo minerador, com o objetivo

de reduzir a complexidade do problema”.

E conforme Goldschmidt (2005) a principal função desta fase é a preparação dos dados para

serem aplicados na fase seguinte de Mineração de Dados. Compreende todos os métodos

relacionados à captação, à organização e ao tratamento dos dados, conforme relacionado abaixo:

27

Seleção de dados

Também identificada pelo nome de redução de dados ela realiza a identificação e seleção

das informações (atributos) mais relevantes, entre as existentes na base de dados original, que

devam ser utilizadas no processo (GOLDSCHMIDT, 2005).

Para Amorim (2006) “inicia com uma coleta inicial de dados, e com procedimentos e

atividades visando a familiarização com os dados, para identificar possíveis problemas de

qualidade, ou detectar subconjuntos interessantes para formar hipóteses”.

Limpeza de dados

Consiste no tratamento dos dados selecionados na etapa anterior, ou seja, para não

comprometer a qualidade dos resultados que serão obtidos no final do processo é necessário que

correções sejam efetuadas na base de dados em virtude da possibilidade de haver informações

ausentes, errôneas, inconsistentes, redundantes ou nulas. Assegurando, assim, a completude, a

veracidade e a integridade dos fatos por eles representados (GOLDSCHMIDT, 2005).

Para Amorim (2006) “consiste na preparação dos dados que visa a limpeza, transformação,

integração e formatação dos dados da etapa anterior. É a atividade pela qual os ruídos, dados

estranhos ou inconsistentes são tratados”.

Codificação dos dados

Para que os dados possam ser usados de maneira adequada pelos algoritmos de Mineração

de Dados ao qual serão submetidos, normalmente é necessário que eles sejam codificados para que

sejam aceitos e possuam a forma adequada (GOLDSCHMIDT, 2005).

Enriquecimento dos dados

Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser

realizada a adição de dados novos que serão agregados aos registros já existentes, conseguindo

assim, o enriquecimento das informações fornecidas (GOLDSCHMIDT, 2005).

28

2.2.1.2 Mineração de Dados

É considerada como a etapa mais importante da metodologia, onde são definidas as tarefas e

técnicas, incluindo os algoritmos, que serão utilizados no processo, sendo realizada então a busca

pelo conhecimento que se pretende extrair da base de dados.

Para Amorim (2006) esta fase “consiste na modelagem dos dados, a qual visa a aplicação de

técnicas de modelagem sobre conjunto de dados preparado na etapa anterior [...] e seus parâmetros

são calibrados para se obter valores otimizados”. Normalmente não é selecionada apenas uma

técnica para a execução do processo, podendo haver até a junção destas técnicas se necessário, e

“algumas técnicas possuem requerimentos específicos na forma dos dados. Conseqüentemente,

voltar para a etapa de preparação de dados é freqüentemente necessário”.

E para Carvalho (2001) nesta fase é realizada a descoberta de novas relações, não

identificadas a olho nu, com a utilização de métodos de Inteligência Artificial, através de uma

análise sistemática e exaustiva sobre os registros dos bancos de dados.

Nos itens 2.2.2 e 2.2.3 serão detalhadas as principais tarefas e técnicas que são utilizadas

nesta fase.

2.2.1.3 Pós-processamento

Na análise de Silva (2003) esta fase inicialmente realiza a avaliação dos padrões realmente

interessantes, que agregam conhecimento útil, para depois realizar a apresentação do conhecimento

descoberto para o usuário final, através de técnicas de visualização e representação do

conhecimento.

Para Goldschmidt (2005) nesta fase é realizado o tratamento do conhecimento obtido na fase

anterior (DM), com a finalidade de facilitar a interpretação e a avaliação da utilidade do

conhecimento descoberto. Podendo dividir esta fase em 3 etapas:

29

Simplificação de modelo de conhecimento

Nesta etapa é realizada a remoção de detalhes e conjunto de informações sem importância

do modelo de conhecimento que foi extraído da fase de processamento (Mineração de Dados), de

forma a torná-lo menos complexo e mais legível e simplificado ao usuário final, mas sem perda de

informação relevante (GOLDSCHMIDT, 2005).

E segundo Silva (2003) a fase de pós-processamento é iniciada com a avaliação dos padrões

realmente interessantes, que representem conhecimento útil.

Transformação de modelo de conhecimento

O modelo de conhecimento que foi obtido da fase de Mineração pode sofrer mudanças em

sua estrutura com a finalidade de facilitar a análise e interpretação deste modelo. Normalmente são

aplicados métodos que consistem na conversão da forma de representação do conhecimento de um

modelo para outra forma de representação do mesmo modelo (GOLDSCHMIDT, 2005).

Organização e apresentação dos resultados

Há técnicas de visualização de informação que estimulam a percepção e a Inteligência

humana, conseqüentemente aumentando o poder de entendimento e associação de novos padrões.

Então, seguindo este pensamento atualmente se usam diversas formas para representar os modelos

de conhecimento obtidos neste processo, sendo os mais utilizados as planilhas, as tabelas, os cubos

de dados, as árvores, as regras e os gráficos em 2 ou 3 dimensões (GOLDSCHMIDT, 2005).

Mas existem alguns critérios que devem ser obedecidos ao representar os resultados

alcançados onde Amorim (2006) as defini como: “devem possibilitar uma análise criteriosa para

identificar a necessidade de retornar a qualquer um dos estágios anteriores do processo de

mineração”.

30

2.2.2 Tarefas

Segundo Kleinschmidt (2007) existem diversas tarefas de DM, onde cada uma delas extrai

um tipo diferente de conhecimento da base de dados e também estão diretamente relacionadas ao

domínio da aplicação e ao interesse do usuário.

Podemos considerar que a escolha das tarefas depende dos objetivos que se pretende atingir

com a aplicação, e não podemos esquecer também que as tarefas podem ser utilizadas isoladamente

ou combinas entre elas dependendo da finalidade que se pretende atingir.

As tarefas estão compreendidas dentro da fase de Mineração de Dados. São diversas as

tarefas que podem ser aplicadas no processo, mas descreveremos a seguir as principais tarefas, que

usualmente são mais utilizadas e também mais estudadas pelos autores:

2.2.2.1 Classificação

Segundo Goldschmidt (2005) é uma das mais populares e importantes tarefas e é definido

como: “descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos

categóricos predefinidos, denominados classes. Uma vez descoberta, tal função pode ser aplicada a

novos registros de forma a prever a classe em que tais registros se enquadram”.

Euriditionhome (2004, apud AMORIM, 2006) diz que esta tarefa pode ser usada para

compreender dados já existentes como também para prever como novos dados irão se comportar.

E Amorim (2006) alerta que é necessário para realizar a tarefa de forma eficiente que

detalhes do dado a classificar sejam desprezados e que apenas as características principais sejam

observadas.

Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Classificação, com

estruturas e características diversas, mas os utilizados com mais freqüência são: Redes Neurais

Artificiais (RNA), Estatísticas, Lógica Indutiva, Árvore de Decisão, Regressão e Algoritmos

Genéticos (AG).

31

2.2.2.2 Agrupamento (ou Clusterização)

Conforme Amorim (2006) “Visa formar grupos de objetos ou elementos mais homogêneos

entre si”. E confirma que esta tarefa é bem mais complexa que a de classificação, pois lá as classes

já vêm com uma classificação previa.

Sua função é separar os registros de uma base de dados em subconjuntos ou grupos, onde os

elementos de um grupo compartilhem de características similares que os distingam de elementos em

outros grupos (GOLDSCHMIDT, 2005).

Para Silva (2003) ela é utilizada quando ainda não é conhecido nenhum grupo e sua

finalidade é produzir uma segmentação do conjunto de dados de entrada de acordo com algum

critério.

E segundo Fayyad et al. (1996, apud GOLDSCHMIDT, 2005) a diferença para o método de

classificação é a necessidade de automaticamente identificar os grupos de dados aos quais os

usuários deverá atribuir rótulos, onde na classificação os rótulos são pré-definidos.

Existem vários tipos de algoritmos que podem ser utilizados no Agrupamento, com

características e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente

usados são os seguintes: RNA, Estatística, K-Means e AG.

2.2.2.3 Associação (ou análise de afinidade)

Carvalho (2001) define da seguinte forma: “Determinar que fatos ocorram simultaneamente

com probabilidade razoável (co-ocorrência) ou que itens de uma massa de dados estão presentes

juntos com uma certa chance (correlação)”. E Goldschmidt (2005) em sua definição sobre esta

tarefa diz que: Compreende a busca por itens que ocorram constantemente de forma simultânea em

ocorrências da base de dados.

Há diversos tipos de algoritmos que podem ser utilizados na tarefa de Associação, com

estruturas e características diversas, mas os utilizados com mais freqüência são: Regras de

Associação, Teoria dos Conjuntos, Estatística e Apriori.

32

2.2.2.4 Previsão

Carvalho (2001) define resumidamente como sendo a “avaliação do valor futuro de algum

índice, baseando-se em dados do comportamento passado deste índice”, e afirma que ela é uma das

tarefas mais difíceis, e que o único modo de termos certeza se a tarefa foi bem realizada é aguardar

o acontecimento e, daí sim, verificar os resultados.

Goldschmidt (2005) diz que este método está sendo muito utilizado para resolver problemas

do mundo real, onde a eficácia de uma decisão depende diversas vezes de eventos anteriores a ela

mesma, assim, esta tarefa ajuda a reduzir os riscos gerados por incertezas e acaba auxiliando o

planejamento e a tomada de decisões.

Existem vários tipos de algoritmos que podem ser utilizados na Previsão, com características

e funcionalidades diferentes, mas os reconhecidos pela literatura e constantemente usados são os

seguintes: RNA, Regressão, Árvore de Decisão e Estatística.

2.2.2.5 Estimativa

Carvalho (2001) diz que para estimar um índice é necessário “determinar seu valor mais

provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se

tem conhecimento”. E afirma que a arte de estimar é usar valores que se encontram em situações

similares aos valores que se quer determinar, mas jamais exatamente iguais.

Há diversos tipos de algoritmos que podem ser utilizados na Estimativa, com estruturas e

características diversas, mas os utilizados com mais freqüência são: Algoritmos de Regressão,

RNA, Estatística, AG e Simulated Annealing.

2.2.3 Técnicas

Normalmente a técnica ou técnicas a serem escolhidas dependem das tarefas a serem

realizadas, e da mesma forma que as tarefas podem ser usadas de maneira individual ou

combinadas.

33

Segundo Silveira (2003 apud KLEINSCHMIDT, 2007) “de acordo com as tarefas a serem

executadas e as classes de problemas em questão, existem diferentes técnicas de mineração e

algoritmos que possibilitam a busca por padrões escondidos nos dados”.

As técnicas estão compreendias dentro da fase de Mineração de Dados. E são diversas as

técnicas que podem ser aplicadas no processo, mas será descrito a seguir as 2 principais, sendo as

mais utilizadas na área de atuação de trabalho:

2.2.3.1 Algoritmo Genético

É definido por Goldschmidt (2005) como sendo “modelos de otimização, inspirados na

evolução natural e na genética, aplicados a problemas complexos de otimização”. E são

recomendados para problemas com grandes espaços de busca ou com muitas variáveis e restrições,

e salienta ainda que esta técnica não tem como garantir uma solução ótima, mas pode conseguir

soluções próximas ou aceitáveis.

E segundo Carvalho (2001) o Algoritmo genético surgiu através de uma forte analogia com

a Teoria da Evolução das Espécies de Darwin, onde a primeira etapa na utilização deste método é

definir um conjunto de genes que representem as características do problema em questão, formando

o cromossomo.

“Em um processo regido por seleção natural, populações competem umas com as outras,

para converterem-se em progenitores, em função de um valor chamado ajuste. Depois aplica-se uma

série de funções denominadas operadores genéticos: mutação, inversão e cruzamento (crossover)”

(DAV, 1991 apud SILVEIRA; BARONE, 1998).

2.2.3.2 Redes Neurais Artificiais

É definido por Goldschmidt (2005) como “uma técnica computacional que constrói um

modelo matemático inspirado em um sistema neural biológico simplificado, com capacidade de

aprendizado, generalização, associação e abstração”. E simplifica o processo dizendo que a técnica

tenta aprender padrões através da experiência, ou seja, são feitos testes com os dados repetidas

34

vezes, procurando por vínculos e automaticamente construindo modelos, e os corrige quando

necessário tentando diminuir seu próprio erro.

E é definido por Sousa (1998, apud AMORIM, 2006) como sistemas paralelos distribuídos,

onde tentam formar padrões localizados nos dados. Sua estrutura compreende um número de

unidades de processamento interconectadas, chamadas de neurônios, que tem a finalidade de

especificar determinadas funções matemáticas, conhecidas como funções de ativação. Estes

neurônios são distribuídos em uma ou mais camadas e interligadas por um grande número de

conexões, estas vinculados a pesos que registram o conhecimento caracterizado pelo modelo e

ponderam as entradas recebidas por cada neurônio da rede.

2.3 FERRAMENTAS DE MINERAÇÃO DE DADOS

Há atualmente disponíveis no mercado diversas ferramentas que foram desenvolvidas para

facilitar o processo de Mineração de Dados ou KDD e diminuir as dificuldades operacionais

existentes, todas elas possuem suas vantagens e desvantagens sendo uma tarefa difícil dizer qual

seria a melhor opção.

Mas, no presente projeto, será trabalhado com a ferramenta Weka (Waikato Environment for

Knowledge Analysis) por possuir todos os recursos necessários e indispensáveis a perfeita execução

deste trabalho; também por possuir uma quantidade enorme de algoritmos com funcionalidades e

características das mais diversas, dando maior opção e credibilidade nas suas escolhas; e também

por ser uma ferramenta de código aberto, que dá a opção de estudo da estrutura dos algoritmos com

possível complementação e miscigenação de suas funções.

Como exemplo, será descrito três ferramentas que são muito utilizadas no mundo todo,

citadas por diversos autores e muito bem conceituadas, destacando suas principais características. E

será finalizado com um quadro comparativo entre elas, destacando principalmente os recursos que

elas possuem e características que possam diferenciá-las.

35

2.3.1 Weka

Esta ferramenta foi desenvolvida por um curso de Ciências da Computação da Universidade

de Waikato na Nova Zelândia, foi totalmente desenvolvida na linguagem Java, sendo um produto

gratuito, de código aberto e possuindo diversos algoritmos para a execução de suas tarefas.

Possui uma interface gráfica de fácil manuseio, denominada de Explorer, e engloba

separadamente as etapas de pré-processamento, processamento e pós-processamento.

“O Weka possui implementados diversos métodos de associação, classificação e

clusterização. A inclusão ou remoção de novos métodos pode ser realizada de forma simples e

rápida, o que torna a ferramenta customizável e expansível.” (GOLDSCHMIDT, 2005).

A equipe de desenvolvimento tem lançado periodicamente correções e releases da

ferramenta, além de manter um grupo de discussões sobre o software. A maioria das funções desta

ferramenta foram originadas de teses e dissertações de grupos de pesquisas desta Universidade

(SILVA, 2006).

O Weka suporta apenas a manipulação de arquivo do tipo ARFF que é baseado em ASCII e

com a finalidade de definir atributos e seus valores. O programa permite a apresentação gráfica dos

dados em forma de histogramas, possui modelos gráficos para a montagem de redes neurais, e a

possibilidade de visualização dos resultados em árvores de decisão (GOLDSCHMIDT, 2005).

Porém ele limita o volume de dados a ser manipulado à sua capacidade de memória

principal, sendo então, a escalabilidade um ponto negativo da ferramenta (SILVA, 2006).

Na Figura 7 segue a visualização da interface de pré-processamento em um caso já

cadastrado no Weka (Weather) com 5 atributos, extraída da própria ferramenta:

36

Figura 7. Weka pré-processamento

Fonte: Universidade de Waikato (2009).

2.3.2 SAS Enterprise Miner

Produzido pela empresa internacional SAS, a ferramenta implementa todo o processo de

KDD, através de um modelo próprio definido como SEMMA – Selecionar (Sample), Explorar

(Explore), Modificar (Modify), Modelar (Model), e Avaliar (Assess) (SAS, 2009).

“É um software estatístico voltado à análise de dados [...] com destaque especial ao módulo

de Mineração de Dados. Esse módulo dispõe de diversos algoritmos de análise, além de recursos

para o planejamento de ações e encadeamento dos algoritmos.” (GOLDSCHMIDT, 2005).

37

“[...]O software fornece a habilidade original de poder comparar a eficácia de cada técnica

em relação ao total do conhecimento gerado, permitindo que estatísticos e analistas do negócio

discutam facilmente os resultados, para analisar as técnicas mais eficazes[...]” (AMORIM, 2006).

O Comparativo de técnicas descrito e ilustrado por Amorim (2006) pode ser visto na Figura

8:

Figura 8. Comparativo de técnicas SAS

Fonte: SAS (2009 apud AMORIM, 2006).

2.3.3 Intelligent Miner

Fabricado pela IBM, faz parte do pacote DB2 Data Warehouse Edition, mas não é

dependente deste sistema.

38

Sendo definido como uma poderosa ferramenta para análise de dados integrada, onde possui

as tradicionais técnicas de mineração de dados (análise de agrupamento, análise de afinidade,

classificação, estimativa e previsão), acrescentadas de sofisticados componentes de apresentação

para possibilitar uma análise visual dos resultados (IBM, 2009).

O Intelligent Miner possui uma interface de programação de aplicativos que permite o

desenvolvimento de aplicações personalizadas de Mineração de Dados, e também permite a

utilização de algoritmos de DM de forma individual ou combinada (GOLDSCHMIDT, 2005).

E no trabalho científico de Amorim (2006) ele nos mostra através da Figura 9 a riqueza dos

componentes de visualização, onde representa os resultados de uma análise de agrupamento entre

clientes, feita através da mineração da base de dados de um banco:

Figura 9. Intelligent Miner agrupamento

Fonte: IBM (2009 apud AMORIM, 2006)

39

2.3.4 Quadro comparativo

A Tabela 6 visa diferenciar as 3 ferramentas estudadas, apontando itens importantes que elas

possuem, proporcionando a escolha de alguma delas pelos recursos disponíveis e necessários para a

satisfação dos resultados pretendidos.

Então, opta-se pela ferramenta Weka em virtude dela possuir os principais recursos que as

demais possuem, não perdendo em nada no quesito de qualidade deles; e principalmente pela

grande diferença que está na variedade de algoritmos disponíveis, como nota-se através de suas

descrições dentro das tarefas explícitas na tabela comparativa (Classificação e Clusterização), onde

o Weka pela quantidade enorme que possui leva a reticência (...) no final da descrição dos

algoritmos, enquanto que as demais não.

40

Tabela 6. Quadro comparativo de ferramentas

Recursos Weka Enterprise Miner Intelligent Miner

Acesso a fonte de dados

heterogêneos

Sim Sim Sim

Integração de conjunto de

dados

Não Sim Sim

Facilidade para inclusão de

novos métodos e operações

Sim Sim Sim

Recursos para planejamento

de ações

Sim Sim Sim

Processamento

Paralelo/Distribuído

Não Sim Sim

Operações e

métodos

disponíveis

Visualização

de dados

Distribuição de

Freqüências, Medidas

de Dipersão,

Histogramas

Gráficos (de linha,

de barra de pizza,

etc.), Histogramas

Gráficos (de pizza,

de linha, de barra),

Histogramas

Redução de

dados

Amostragem Comandos SQL -

LDD

Seleção,

Amostragem,

Aplicação de filtros,

Cálculo de valores

Limpeza de

dados

Substituição Checagem

automática de

valores discrepantes,

Substituição

Substituição,

Descarte

Codificação

de dados

Discretização

automática e manual

Discretização e

Transformação


Discretização,

Randomização e

Transformação


Classificação Árvores de Decisão,

Bayes, Redes

Neurais...

RBF, Perceptron

Multi Camadas,

CART, C4.5,

Regressão Linear

Árvore de Decisão,

Métodos

Estatísticos, Redes

Neurais

Clusterização Simple-KMeans,

Cobweb,

FarthestFirst...

Kohonen, Ward K-means

Organização

de resultados

Agrupamento e

Ordenamento de

padrões

Ordenação e Seleção

de regras

Agrupamento e

Ordenamento de

padrões

Apresentação

de resultados

Conjunto de Regras e

Árvores de Decisão

Gráfico, Textos e

Árvores

Gráfico (pizza,

barra), Tabelas,

Árvores e Clusters

Estrutura para

armazenamento de modelos

de conhecimento e históricos

de ações

Sim Sim Sim

Fonte: Adaptado de Goldschmidt (2005).

41

2.4 INTELIGÊNCIA ARTIFICIAL NO MERCADO FINANCEIRO

Cientistas da Computação consideram os fenômenos financeiros de maneira estática ou

dinâmica e aplicam técnicas de inteligência computacional para montar formas de agir no mercado

financeiro, como tentando prever o comportamento de um índice ou o preço de um ativo, ou para

montar uma carteira de investimentos, sendo esta área financeira objeto de estudos há anos por estes

cientistas (LAZO, 2000).

Podemos citar um caso de sucesso na utilização de Mineração de Dados na área financeira:

“A empresa norte-americana LBS já há algum tempo (desde 1986) investe em tecnologia por achar

que os enfoques tradicionais no gerenciamento de investimentos não fornecem resultados que

superem expressivamente o lucro médio de mercado” (CARVALHO, 2001).

E Carvalho (2001) conclui o caso de sucesso dizendo que “a LBS foi uma das mais

importantes empresas do mercado financeiro nos EUA durante 7 anos consecutivos. Sua carteira

cresceu durante este período de 25% a 100% ao ano e nunca houve uma perda maior que 7%

durante este tempo”.

Pesquisas estão sendo direcionadas aos mercados emergentes em virtude de recentemente

estes países em desenvolvimento mostrarem elevada quantidade de investimentos e de número de

negociações, onde modelos já utilizados nos países desenvolvidos são testados, e também buscando

novos modelos que possam descrever o comportamento destes mercados emergentes e assim

reduzir os riscos dos investimentos (LAZO, 2000).

Em reportagem extraída do portal da revista ISTOÉ Dinheiro escrita por Teixeira (2006) ele

destaca as falas do proprietário do primeiro modelo brasileiro comercialmente viável de Inteligência

Artificial no mercado acionário, o professor Fabio Bretas (Físico com 10 anos de experiência no

mercado financeiro): “O problema no passado era falta de informação. Hoje, é o excesso” e “Nos

Estados Unidos, você já tem robozinhos comprando e vendendo ações praticamente por conta

própria”. E dá um alerta informando que o trabalho dos analistas e gestores continua sendo

indispensável, mas a Inteligência Artificial é imbatível quando o que conta é a rapidez para detectar

movimentos em mercados complexos e identificar possibilidades de ganhos.

42

2.5 TRABALHOS SIMILARES

Nos subitens a seguir seguem relacionados os temas com suas respectivas descrições de

trabalhos científicos similares ao desenvolvido neste projeto, onde todos eles utilizam técnicas de

Inteligência Artificial para a seleção de ativos da Bolsa de Valores, e sendo finalizado com um

subitem que faz uma análise comparativa destes trabalhos.

Mas somente um deles (e único trabalho cientifico brasileiro que foi localizado) lida com o

processo de Mineração de Dados similar a este projeto, que foi o tema proposto por Fernando

Rafael Stahnke (subitem 2.4.2.4) do Centro Universitário FEEVALE, mas observou-se certa

limitação nos resultados obtidos por ele, onde o estudo concentrou-se em apenas um ativo da Bolsa

de Valores (Petrobras) e em apenas 2 algoritmos (Redes Neurais e Árvores de Decisão) para o

processamento dos dados, assim, diminuindo o conhecimento extraído da metodologia, já que não

se pode verificar o comportamento entre os diversos ativos (tanto de um mesmo setor da economia

como de setores diversos), além de outras informações que poderiam ter sido extraídas.

2.5.1 Aplicação de Redes Neurais Artificiais no processo de precificação de ação

Trabalho de Conclusão de Curso proposto por Marília Terra de Mello da Universidade

Federal de Pelotas onde o projeto está baseado no desenvolvimento de uma Rede Neural com

algoritmo de aprendizagem backpropagation com o objetivo de realizar a previsão dos preços

futuros de ações e tornar-se um indicativo para selecionar ativos que comporão as carteiras de

investimentos dos investidores.

Os resultados obtidos com o trabalho comprovam que é possível prever a tendência dos

preços das ações, conseguindo algumas vezes aproximar a estimativa de retorno do valor real. E

confirmando o conceito de que as Redes Neurais podem facilitar o trabalho dos investidores de

ações, proporcionando grandes possibilidades de obtenção de ganhos (MELLO, 2004).

2.5.2 Um novo Algoritmo Genético para a otimização de carteiras de

investimento com restrições de cardinalidade

Dissertação de Mestrado da Universidade Estadual de Campinas tendo como autor Carlos

Henrique Dias que propôs o uso de um Algoritmo Genético para resolver problemas de otimização

43

de carteiras de investimentos, de forma a oferecer aos investidores um conjunto de soluções

(composição da carteira), que sejam as melhores, para que estes possam escolher o melhor

investimento conforme sua aversão ao risco.

Os resultados computacionais alcançados indicam que a nova proposta é bastante

promissora, já que forneceu soluções melhores e mais robustas que algoritmos já elaborados

anteriormente, consumindo menos tempo (DIAS, 2008).

2.5.3 Modelo Genético-Neural de gestão de carteiras de ações

Trabalho de Formatura proposto por Luiz Paulo Rodrigues de Freitas Parreiras da Escola

Politécnica da Universidade de São Paulo que juntou duas ferramentas de Inteligência Artificial, as

Redes Neurais (RN) com os Algoritmos Genéticos (AG) com a intenção de formar carteiras de

investimentos em ações mais eficientes e realistas. Utilizou as RN para a obtenção de boa

performance preditiva e AG para obter alocação de ativos em carteiras de investimentos

gerenciadas dinamicamente (PARREIRAS, 2003).

Chegando-se a conclusão que as Redes Neurais, quando bem modeladas e treinadas, podem

realizar boas previsões de preços futuros de ações, e quando integradas num modelo integrado de

risco-retorno baseado em Algoritmo Genético, geram resultados ainda mais superiores

(PARREIRAS, 2003).

2.5.4 Uso de Data Mining no mercado financeiro

Trabalho de Conclusão de Curso feito por Fernando Rafael Stahnke do Centro Universitário

Feevale, que elaborou o projeto com o objetivo de “discutir e propor o uso de técnicas de mineração

de dados para a identificação de padrões de comportamentos hoje despercebidos pelos investidores

e, assim, determinar a tendência futura dos ativos do mercado à vista” (STAHNKE, 2008).

O autor concluiu que é possível utilizar técnicas de Data Mining no mercado á vista

brasileiro como uma ferramenta de apoio à decisão por investidores que buscam lucros em curto

prazo, mas foi verificado que os resultados alcançados foram limitados devido à falta de

44

conhecimento e experiência do autor tanto na área de investimentos quanto na área das tecnologias

computacionais que foram empregadas (STAHNKE, 2008).

2.5.5 Uma investigação estatística sobre análise técnica

Dissertação de Mestrado concluída por Giuliano Padilha Lorenzoni que buscou em seu

trabalho construir uma metodologia estatística que possibilitasse investigar a eficácia na análise

técnica, onde esta analise trata-se de uma forma de identificar e antecipar a tendência dos preços

dos ativos financeiros através do Grafismo, utilizando gráficos das cotações históricas. E no fim de

seu trabalho, ele pode confirmar que há evidências de eficácia de alguns padrões entre os mais

importantes e recorrentes utilizados na análise técnica (LORENZONI, 2006).

2.5.6 Análise comparativa

Os três primeiros trabalhos científicos descritos anteriormente comprovam o quanto o uso da

Inteligência Artificial através das Redes Neurais Artificiais e os Algoritmos Genéticos são úteis e

eficientes no ambiente das Bolsas de Valores, onde os resultados obtidos foram satisfatórios, mas

porque não ampliar as descobertas efetuadas e a potencialidade dos resultados obtidos com outras

técnicas e algoritmos.

Já o trabalho desenvolvido pelo Fernando Rafael Stahnke, apesar dele não ter conseguido os

resultados esperados pelos motivos já descritos anteriormente, abre outras possibilidades de uso da

Inteligência Artificial neste mercado, onde a Mineração de Dados aparece como uma ferramenta

mais completa e abrangente para ser aplicada ao mercado acionário, onde seus conceitos envolvem

toda uma metodologia a ser aplicada a base histórica das cotações das ações da Bolsa de Valores

dando mais credibilidade e amplitude nos métodos a serem adotados, ainda assim, não descartando

o uso das técnicas de RNA e AG dentro de uma das fases da DM.

Já o último projeto desenvolvido (Uma investigação estatística sobre análise técnica) foca

num dos objetivos deste projeto, que é obter padrões e tendências do movimento das cotações das

empresas brasileiras listadas na Bovespa, onde no trabalho dele essa expectativa é atingida através

45

de análise de gráficos e aqui será efetuado através da Inteligência Artificial (Mineração de Dados)

na tentativa de potencializar os resultados e também chegar a outras descobertas relevantes.

Então se decidiu pelo uso da Mineração de Dados neste processo de descoberta na bolsa de

valores por ter uma diversidade maior de opções de escolha de técnicas e métodos em relação às

outras que utilizam Inteligência Artificial (Algoritmo Genético e Redes Neurais Artificiais). E em

comparação as técnicas hoje adotadas para verificar tendências nos movimentos dos ativos

(Grafismo) o uso da DM também leva vantagem em virtude da analise técnica atualmente aplicada

levar em conta apenas aspectos estatísticos e a Mineração reunir em seu processo pelo menos três

áreas de estudos que compreendem a Inteligência Artificial, Banco de Dados e Estatística.

3 PROJETO

O projeto visa realizar descobertas quanto ao movimento dos ativos de empresas brasileiras

que são listadas na Bovespa, para isso são utilizados os recursos da inteligência artificial e toda a

metodologia de Mineração de Dados (processo este caracterizado na fundamentação teórica deste

trabalho na Seção 2.2), onde serão aplicadas em uma base histórica de cotações das referidas ações

brasileiras. E terá como conseqüência também uma possível indicação do comportamento das

cotações destes ativos onde servirão de auxilio para que investidores, corretoras e demais

interessados tomem decisões de investimento nos pregões diários da Bolsa de Valores com uma

probabilidade maior de acerto e correndo um menor risco, mas lembrando que serão apenas

indicações sem garantia de sucesso, pois a imprevisibilidade deste mercado não garante que sejam

realizadas afirmações incontestáveis.

O projeto está dividido em três etapas que são o pré-processamento, o processamento (ou

Mineração de dados) e o pós-processamento. As referidas etapas seguem a metodologia de DM, e

serão detalhadas a seguir:

3.1 PRÉ-PROCESSAMENTO

Nesta etapa os dados são selecionados e preparados para serem processados. Os dados

modelados formam um arquivo no formato adequado para ser processado pela ferramenta que será

utilizada na etapa posterior.

Os arquivos preparados possuem indicadores (atributos) de ações de um período que varia

de 6 a 14 meses, onde se formaram de 2318 até 5094 registros, sendo cada registro composto por

até 5 atributos, sendo eles: O nome da empresa, o setor de atuação da referida empresa, a cotação

diária (valor de fechamento) do ativo, a quantidade de negócios fechados em um determinado dia de

negociação do ativo específico e o atributo data que identifica o momento em que a cotação e o

numero de negócios ocorreram. A coleta destes indicadores foi referente ao período que inicio em

janeiro de 2009 até fevereiro de 2010, e estas informações foram colhidas da pagina oficial da

BM&FBOVESPA na área dados históricos das ações é possível realizar a consulta desta fonte

selecionando o dia de negociação desejado.

47

Para isso, são usadas quatro atividades que irão compor o processo de preparação deste

arquivo, e são detalhados nos itens a seguir:

3.1.1 Seleção

São centenas os ativos listados na Bovespa, existem papéis com características e

operacionalidades diversas e de variados setores de nossa economia. Estudar todos eles se torna

inviável tanto pela quantidade como também pela baixa representatividade de alguns. Então,

decidiu-se pela seleção de 17 papéis negociados em nossa bolsa de valores, onde o foco está em sua

grande maioria nos papéis mais observados pelos investidores, de grande liquidez e com grande

número de indicações por conceituados analistas8 que divulgam suas recomendações para

conhecimento geral e que focam na análise Fundamentalista que é caracterizada pelo longo prazo.

Mas lembrando que esta escolha não possui a finalidade principal de diretamente selecionar

ações baseado no potencial de valorização ou objetivando o maior lucro possível e sim para realizar

descobertas nos ativos mais negociados. Então, esta metodologia foi aplicada somente aos papéis

mais visados pelo mercado, de empresas de bons fundamentos e que praticamente quase sempre

estão presentes nas carteiras de investimentos dos investidores, dando assim, representatividade a

Bolsa como um todo, como exemplo podem ser citados os papéis das empresas Vale do Rio Doce,

Petrobras, Banco Bradesco, Banco do Brasil, Gerdau e Usiminas.

Como exceções foram selecionados alguns papéis de pequena representatividade, com baixa

liquidez, denominados de Small Caps (cujas características encontram-se descritas na Subseção

2.1.3 da fundamentação teórica deste trabalho), em virtude deles também merecerem serem alvos de

estudos e de se realizar possíveis descobertas já que eles são considerados por muitos analistas

apesar de voláteis muito lucrativos se bem selecionados. Foram selecionados somente os com

potencial de valorização (conforme indicações de analistas9) e em pequenas quantidades para não

trazer riscos maiores a nossa carteira pela volatilidade que eles trazem, podemos citar como

8 Lembrando que estas indicações e análises colhidas de especialistas da área são expostas gratuitamente em sites e

revistas nacionalmente conhecidas. Não esquecendo que são apenas sugestões oferecidas por estes analistas não

havendo nenhum comprometimento com as informações prestadas e nem garantia de sucesso, sendo a análise final

realizada pelo investidor ou leitor. 9 Idem a nota 8

48

exemplo os papéis das empresas como MMX Mineração e OGX Petróleo do empresário Eike

Batista.

Buscando obter a maior possível representatividade de setores da economia representados

pelos ativos das empresas selecionados, foi concentrada a escolha das ações por setores de atuação.

E não foi selecionado apenas um de cada setor e sim um conjunto, com a finalidade de não apenas

estudar os movimentos destes ativos isoladamente, mas também comparando um setor com outro, e

entre papéis de um mesmo ramo. Podendo então, dividir a escolha de ativos pelas seguintes setores

de atuação: Siderúrgico, commodities, varejo e consumo, financeiro e construção.

Na Tabela 7 seguem detalhadas todas as empresas selecionadas divididas por ramo de

atuação, e também o código em que elas são negociadas na Bovespa.

Tabela 7. Lista de ativos selecionados

Setor Ativo Código na Bovespa

Commodities Vale do Rio Doce

Petrobras

Fibria (Votorantim)

MMX Mineração

OGX Petróleo

Vale4

Petr4

Fibr3

Mmxm3

Ogxp3

Siderúrgico Usiminas

Gerdau

Siderúrgica Nacional

Usim5

Ggbr4

Csna3

Financeiro Banco do Brasil

Banco Bradesco

Itaú Unibanco Holding

Bbas3

Bbdc4

Itub4

Varejo e Consumo Brasil Foods (Perdigão/Sadia)

Lojas Renner

Lojas Americanas

Brfs3

Lren3

Lame4

Construção Gafisa

Cyrela Brazil Realty

Rossi Residencial

Gfsa3

Cyre3

Rsid3

3.1.2 Limpeza

Os dados selecionados na fase anterior precisam ser tratados, onde correções precisam ser

efetuadas na base de dados para que sejam transmitidas à etapa de processamento somente as

informações úteis e necessárias aos objetivos pretendidos.

49

Então, na Figura 10 é exibido um pedaço da base de dados de um dia de negociação dos

ativos na bolsa de valores, sendo esta a nossa base original que deverá ser tratada.

Figura 10. Base de dados Original

Fonte: Adaptado de BM&FBOVESPA (2009b).

Essa base de dados foi obtida através do site da BM&FBOVESPA entrando nos dados

históricos das ações é possível realizar a consulta desta fonte selecionando o dia de negociação

desejado.

Então, dessa base foram extraídas somente as cotações e o numero de negócios realizados

dos ativos selecionados na fase anterior, representado pelo campo “osc.” (oscilação em %) e “negs.

realiz.”, conforme circulado na figura, significando a variação que o papel sofreu em sua cotação

50

comparado com o fechamento do dia anterior e a quantidade de negócios fechados no dia em

referência, sendo as demais informações desprezadas.

Concluindo assim a limpeza dos dados e dando origem a uma nova base de dados, mas

agora criada em uma planilha do programa Excel, conforme demonstrado através de um pedaço

desta planilha exibida na Figura 11:

Figura 11. Base de dados Excel

Esta planilha é dividida em várias tabelas menores, onde cada uma representa as cotações

diárias de 1 semana dos 17 papéis escolhidos e lembrando que os valores que indicam os números

de negócios encontram-se em uma planilha adicional.

3.1.3 Enriquecimento

Para o aprimoramento das informações que serão submetidas ao processo de DM pode ser

realizada a adição de dados novos que serão agregados aos registros já existentes.

Assim, foi decidido incluir na nova tabela criada dois elementos que podem agregar algum

conhecimento novo nas descobertas, em virtude do primeiro ser um medidor de nosso mercado de

ações e o segundo do mercado externo, onde nossas ações são fortemente influenciadas. Eles são o

51

índice da nossa Bolsa de Valores de São Paulo, conhecido como índice Bovespa e o índice da Bolsa

de Valores de Nova York, conhecido como índice Dow Jones. As definições desses índices seguem

detalhados na Subseção 2.1.2.1 da fundamentação teórica deste projeto.

Na Figura 12 pode ser confirmada a presença deste índice em nossa tabela Excel:

Figura 12. Base de dados enriquecida

3.1.4 Codificação

Para que os dados possam ser usados de maneira adequada pela ferramenta que será

utilizada na etapa de Mineração de Dados ao qual serão submetidos, é necessário que eles sejam

codificados para que sejam aceitos e possuam a forma adequada.

Neste projeto a ferramenta escolhida para processar os dados exige que os dados sejam

codificados em um formato de texto que recebe a extensão “arff” que é baseada em ASCII, e

também estabelecem o uso de alguns atributos, exclusivos desta ferramenta.

Dessa forma, foi feita uma conversão na tabela do Excel, transformado-a em um arquivo do

tipo arff, cujas peculiaridades podem ser vistas na Figura 13:

52

Figura 13. Base de dados arff

Pode ser observado que este novo arquivo possui algumas propriedades particulares, como:

O nome do arquivo vem identificado após o uso da palavra “relation”. Em seguida, cada atributo

da tabela Excel vem identificado após o uso da expressão “attribute”, relacionando as empresas

selecionadas, o setor de atuação, a data do registro, a cotação dos ativos e o numero de negócios,

onde esses atributos são obrigatoriamente utilizados em cada registro do nosso arquivo através das

variáveis identificadas entre as chaves {}. Para finalizar os dados foram expostos logo abaixo da

expressão “data”, onde cada linha identifica um registro da base de dados, ou seja, cada registro

identifica um dia de pregão de um determinado ativo com suas variáveis. Esclarecendo ainda, que

foram excluídos deste arquivo os dias que não houve pregões na bolsa de valores devido a serem

finais de semana ou feriados.

3.2 PROCESSAMENTO

Esta é a etapa em que o arquivo, que foi criado na fase anterior (pré-processamento) com os

dados colhidos da base de dados, é processado. Considerada uma fase importantíssima da

metodologia de DM, pois é dela que serão extraídos os conhecimentos buscados com a criação

53

deste projeto. Em virtude disso, tem extrema relevância a forma e as técnicas que serão utilizadas

para o processamento dos dados.

Para esta etapa de processamento ou Mineração de Dados foi utilizado o auxilio de uma

ferramenta denominada “Weka”, cujas características encontram-se na Subseção 2.3.1 da

fundamentação teórica deste trabalho, e as motivações que levaram a escolha desta ferramenta

específica também são abordadas nesta Subseção. Foram utilizadas as técnicas e algoritmos que

estavam dispostas na ferramenta, e que a seguir seguem detalhadas, juntamente com os resultados

alcançados.

3.2.1 Inicialização da Ferramenta

A Figura 14 mostra como a ferramenta se comporta após a inserção do arquivo arff que foi

criado anteriormente no tópico codificação. São visualizadas na aba de pré-processamento as

características dos dados contidos no arquivo: No círculo vermelho denominado A é expresso os

dados gerais da base, com o nome do arquivo, a quantidade de registros da base e a quantidade de

atributos; no círculo B é possível realizar a seleção dos atributos para serem utilizados no processo

de DM; no C são expressos dados estatísticos de um dos atributos selecionados; e no círculo D são

visualizadas em forma de gráfico as estatísticas desse atributo selecionado.

54

Figura 14. Arquivo de entrada no Weka


3.2.2 Tarefa utilizada

Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram testadas todas as

tarefas disponíveis na ferramenta, mas foi decidido pela tarefa de Classificação em virtude de ser a

que melhor se adaptou com o arquivo de entrada e que apresentou resultados significativos e

consistentes com melhor grau de confiabilidades em seus indicadores. E também por ela possuir um

caráter preditivo, ou seja, suas funções acarretam inferências nos dados com o intuito de fornecer

previsões ou tendências, que são características essências aos objetivos deste projeto.

Neste trabalho esta tarefa efetuou classificações escolhendo o atributo empresa como

elemento classificador, ou seja, efetuou o agrupamento dos resultados em torno do elemento

“empresa”.

Seus algoritmos possuem como característica marcante o aprendizado supervisionado, pois é

fornecida uma classe à qual cada amostra no treinamento pertence e dando ênfase na precisão da

55

regra. E possuindo o objetivo principal de determinar o valor de um atributo através dos valores de

um subconjunto dos demais atributos da base de dados (SILVA, 2006).

Mais informações sobre a tarefa de classificação podem ser obtidas na Subseção 2.2.2 da

parte teórica deste trabalho.

A interface desta tarefa na ferramenta Weka pode ser vista na Figura 15, cujas características

seguem detalhadas a seguir: no círculo A pode ser escolhida a técnica de classificação que se deseja

utilizar juntamente com os parâmetros do algoritmo; no B efetua a seleção da opção de teste e

validação do modelo; no C seleciona-se o atributo classe para efetuar a classificação; e no círculo D

é o local onde serão exibidos os resultados da Mineração com o algoritmo selecionado, ou seja, o

modelo gerado com seus respectivos dados estatísticos.

Figura 15. Interface da tarefa de Classificação


56

3.2.3 Técnicas utilizadas

Como poderemos verificar no item Resultados obtidos (seção 3.2.4), foram efetuados testes

com os diversos tipos de algoritmos disponíveis na ferramenta, mas os que trouxeram os melhores

resultados foram os que pertencem às categorias de Árvore de Decisão e Regras de Classificação,

trazendo informações relevantes, coerentes e diferenciadas na sua execução com resultados mais

facilmente interpretáveis.

A Árvore de Decisão é utilizada para se obter uma estratégia para alcançar determinados

objetivos, onde forma-se um gráfico em forma de árvore onde possui as decisões a serem tomadas e

suas possíveis conseqüências, ou seja, forma-se um mapeamento de observações sobre um item

para conclusões sobre seu valor-alvo (SANTANA; RODRIGUES, 2005).

O funcionamento de uma árvore de decisão inicia-se com a inclusão de um conjunto de

dados ao nó raiz da árvore, que são submetidos a um cálculo de entropia e conseqüentemente essas

tuplas10

são subdivididas e ramificando-se aos nós filhos, então, em cada nível da árvore é

necessário definir regras heurísticas para separar os dados apresentados a este nó em subconjuntos

homogêneos (PUC, 2004 apud STAHNKE, 2008). No final dos vários ramos existem as folhas11

que são os resultados atingidos, estando associados a um rótulo ou valor pela elevada

homogeneidade dos elementos deste grupo (CARVALHO, 2001). Este procedimento caracteriza a

recursividade em que as árvores de decisão são submetidas.

As Regras de Classificação tem seu funcionamento semelhante ao das Árvores, mas se

manifestam através de um conjunto de regras, ou seja, o conhecimento descoberto é representado na

forma de regras SE-ENTÃO. Onde elas interpretam os atributos preditivos da tupla quanto à

satisfação da condição antecedente da regra: “SE os atributos preditivos satisfazem as condições do

antecedente da regra, ENTÃO a tupla tem a classe indicada no conseqüente da regra.” (STAHNKE,

2008).

10

Conjunto de dados apresentados para a raiz da árvore. 11

Nós que não possuem nós descendentes, terminal.

57

Na Figura 16 tem-se um exemplo de árvore de decisão e na Figura 17 um exemplo de regras

de classificação, ambos extraídos da ferramenta weka:

Figura 16. Exemplo de árvore de decisão

Figura 17. Exemplo de regras de classificação

58

Dentro da técnica de Árvore de Decisão (trees) há diversos algoritmos disponíveis para

realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando

alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também

dos arquivos de entrada chega-se a um algoritmo que apresentou resultado mais satisfatório, sendo

ele o J48. A lista dos algoritmos disponíveis nesta técnica segue destacado na Figura 18:

Figura 18. Algoritmos de árvore de decisão no Weka


Dentro da técnica de Regras de Classificação (rules) há diversos algoritmos disponíveis para

realizar esta função, onde através de diversos testes e simulações com estes algoritmos, realizando

alternâncias tanto nos atributos classificadores quanto nas configurações dos algoritmos e também

nos arquivos de entrada chega-se a dois algoritmos que apresentaram resultados mais satisfatórios,

sendo eles o JRip (Incremental Reduced Erro Prunning – Poda de Redução Incremental de Erro) e o

59

PART (Partial decision trees – Parcial de Árvores de Decisão). A lista dos algoritmos disponíveis

nesta técnica segue destacado na Figura 19:

Figura 19. Algoritmos de regras de classificação no Weka


3.2.4 Resultados obtidos

Primeiramente devem-se dividir os resultados obtidos em duas etapas, onde na primeira

parte os dados coletados foram em menor escala (tanto no numero de registros quanto no de

atributos), para posteriormente na segunda etapa eles serem complementados com um maior

número de registros e informações tornando-os mais completos e com um valor agregado maior,

mas cabe-se esclarecer que será mostrado o modelo gerado somente dos algoritmos com os arquivos

de entrada que tiveram seus resultados validados.

60

3.2.4.1 Primeiros testes (TCC1)

Inicialmente os testes foram efetuados com arquivos de no máximo 2970 registros coletados

em um período de 6 a 8 meses que compreende o mês de janeiro de 2009 até agosto do mesmo ano,

nestes experimentos utilizou-se 4 atributos em cada registro sendo eles o nome que identifica a

empresa, o setor de atuação desta empresa, a data do registro ou da cotação de sua ação em bolsa, e

a cotação diária do ativo na respectiva data.

Após vários testes decidiu-se somente pelo uso de arquivos com 8 meses, em virtude do de 6

meses apresentarem resultados poucos confiáveis em razão de sua pequena quantidade de registros

coletados, onde pode ser observado através do modelo gerado pelos algoritmos.

No atributo data foram feitos arquivos declarando ele em dois formatos, um deles se separou

dia, mês e ano em atributos separados e com valor numérico, e no outro modo ele foi declarado em

um só atributo em formato próprio de data, onde teve melhor aceitação com resultados mais

consistentes e legíveis a segunda opção, e em virtude disto nos testes finais só foi utilizado esta

melhor forma de declaração.

No atributo cotação nestes primeiros testes foi utilizado ele no formato numérico, mas

observou-se que diversos algoritmos, principalmente os das tarefas de Agrupamento (Cluster) e

Associação (Associate), apresentaram suas opções de uso desativadas, não podendo ser utilizados.

Assim sendo, os que obtiveram melhores resultados foram os algoritmos da tarefa de Classificação,

mas seus resultados ainda não apresentavam indicadores estatísticos (serão vistos na validação do

modelo) confiáveis a ponto de serem validados, onde seu índice Kappa variou de 0.16 (16%) a 0.33

(33%), valor considerado muito baixo para ser aprovado.

3.2.4.2 Testes finais (TCC2)

Para o aperfeiçoamento dos resultados pretendidos, foram feitas diversas alterações no

arquivo de entrada, onde foram efetuados diversos testes para se chegar ao melhor conjunto de

dados para formar este referido arquivo que alimentará a execução dos algoritmos.

Para tal finalidade foram feitas as seguintes alterações: inclusão de um período maior de

coleta dos dados de entrada que variaram de 8 meses a 14 meses e compreenderam o período de

61

janeiro de 2009 a fevereiro de 2010; inclusão de um novo atributo, o índice Dow Jones (Índice da

Bolsa de Valores de Nova York) que é uma importante referência para o mercado brasileiro,

altamente influenciado por ele; inclusão de mais um atributo identificado como número de negócios

que fornece a quantidade de negócios realizados em um determinado dia por uma determinada ação;

e também a modificação do atributo cotação com a alteração de seu tipo que passou de numérico

para valores nominais, dividindo o valor da cotação em faixas de valores pré-definidas.

Para os períodos estudados nesta etapa verificou melhores resultados no período de 12

meses onde conseguiu resultados similares ao de 8 meses (testes anteriores), sendo que dependendo

do algoritmo utilizado havia a alternância de melhores resultados entre os dois. Já no período de 14

meses houve uma queda significativa nos resultados alcançados, havendo distorções nas regras e

baixa produtividade nos indicadores estatísticos. Assim, nosso arquivo final compreenderá tanto o

período de 8 meses quanto o de 12 meses (dependendo do algoritmo que estará sendo utilizado), e

será formado por 4.428 e 5.094 registros respectivamente.

A inclusão do índice Dow Jones não trouxe alteração significativa nos resultados

alcançados, sendo que as regras formadas em quase sua totalidade não incluíam este índice,

tornando-se dispensável seu uso. Portanto, houve a exclusão deste atributo na base de dados final.

Quanto à inclusão do atributo numero de negócios houve uma resposta extremamente

positiva nos resultados obtidos no modelo gerado, onde conseguiu elevar bastante os índices de

acertos das classificações efetuadas e também agregou um valor muito importante nas regras

geradas, sendo um indicador muito relevante para a tomada de decisão. Sendo assim, o arquivo final

compreenderá este atributo indispensavelmente.

Na modificação do tipo do atributo cotação de numérico para nominal tinha-se a ideia de

alterá-lo para que algoritmos antes inacessíveis por não trabalhar com valores numéricos agora

poderiam ser disponibilizados, e realmente uma grande quantidade de algoritmos tornaram-se

ativos, principalmente aqueles compreendidos dentro das tarefas de Agrupamento e Associação,

mas os resultados obtidos com esses algoritmos após diversos testes foram insatisfatórios, onde os

modelos gerados após a execução deles não trouxeram nenhuma informação significativa para o

objetivo do trabalho, chegando-se a conclusão que os melhores algoritmos para o objetivo traçado

62

seriam mesmo os compreendidos dentro da tarefa de Classificação, principalmente os do tipo árvore

de decisão e regras de classificação que foram os que melhores se comportaram. Portanto, na base

de dados finais o atributo cotação retornou ao seu formato original, ou seja, do tipo numérico.

Então, após escolhido o melhor arquivo de entrada para a realização da tarefa pretendida,

com todas as modificações efetuadas na base de dados para potencializar os resultados, chegou-se a

execução dos três melhores algoritmos que geraram os modelos com as melhores regras e

indicadores (que serviram para sua validação, onde será visto no item validação do modelo) e

também com um aumento substancial da quantidade de resultados obtidos (regras geradas),

conforme poderemos verificar a seguir:

3.2.4.2.1 Algoritmo J48 (tree)

Este é o primeiro algoritmo selecionado sendo do tipo árvore, ele é considerado o mais

popular dos algoritmos disponíveis na ferramenta. Caracteriza-se por utilizar a técnica do guloso12

descendente, ou seja, recursivamente particiona o espaço em segmentos o mais homogêneo possível

em relação à classe objetivo.

Foi utilizado como arquivo de entrada para fornecimento dos dados o arquivo que se chegou

ao final dos testes realizados, com um período de registros de 8 meses, e nas configurações do

algoritmo foi selecionado o atributo empresa como o elemento classificador, os resultados obtidos

foram bastante satisfatórios onde chega-se a 61 resultados, ou seja, conclusões localizadas nas

folhas da árvore.

Então, na Figura 20 pode ser observada uma parte do modelo gerado com a execução do

algoritmo J48. Onde pode ser analisado que cada linha dela significa um ramo da árvore e cada

coluna (ou afastamento) é transportada a um nível da árvore, ou ainda, as linhas que apresentam o

caractere “|” são filhos dos anteriores. Os 2 valores que aparecem entre parênteses ao lado de cada

atributo empresa representam a quantidade de vezes que a regra obtida foi classificada corretamente

12

Guloso porque em cada passo ele tenta chegar o mais perto possível do objetivo (sem olhar mais adiante).

63

(valor do lado esquerdo) e também a quantidade de vezes que foi classificada incorretamente (valor

do lado direito).

Lembrando que os conhecimentos obtidos com esses resultados e também com os resultados

dos demais algoritmos serão abordados na próxima seção do trabalho (Pós-Processamento).

Figura 20. Execução do algoritmo J48

Na Figura 21 tem-se um pedaço da parte gráfica da árvore formada com a execução do

algoritmo J48, sendo que a árvore completa formou 117 elementos (tamanho total da árvore) e 61

folhas. Nesta figura pode ser observado que os atributos ficaram nos nodos da árvore, sendo as

64

folhas, localizados na parte inferior, que detém o atributo escolhido como classificador (empresa),

onde o valor entre parênteses significa a quantidade de classificações efetuada corretamente

conforme explicado anteriormente.

Figura 21. Árvore do algoritmo J48

Na Figura 22 observam-se as estatísticas relacionadas aos resultados obtidos com a

execução do algoritmo J48, onde servem de apoio a análise e validação do modelo gerado, estes

indicadores podem ser vistos através dos índices de correção e incorreção de instâncias mineradas,

erro médio absoluto, erro relativo médio, dentre outros.

Na Figura 22 estes indicadores estão divididos em 2 partes, sendo a primeira parte destinada

mais a medição de erros de forma geral, ou seja, de todo o modelo gerado, enquanto que na parte

65

inferior (em forma de matriz) eles estão divididos por classes, sendo o atributo classificador a

variável utilizada. Onde a análise desses indicadores (e também dos demais algoritmos que serão

abordados a seguir) será feita na seção seguinte deste projeto (Pós-Processamento).

Figura 22. Estatísticas do algoritmo J48

Na Figura 23 tem-se a matriz de confusão, que é mais um meio de ser analisada a

confiabilidade do modelo gerado, onde podem ser medidas as classes geradas de forma

individualizada, ou seja, cada linha da matriz representa uma classe gerada e as colunas representam

como elas foram classificadas no modelo obtido. Portanto, as classes que foram o maior número de

vezes corretamente classificadas são consideradas como ótimo resultado. Esses indicadores também

serão analisados na fase de Pós-Processamento juntamente com os indicadores dos demais

algoritmos estudados.

66

Figura 23. Matriz de confusão do algoritmo J48

3.2.4.2.2 Algoritmo JRip (rules)

Este é um dos algoritmos selecionados do tipo regras de classificação, ele caracteriza-se pela

redução do erro através da técnica dividir-para-conquistar13

, ou seja, o algoritmo possui um

conjunto de regras que são testadas uma por uma, e depois que uma regra é localizada, todos os

exemplos que são compreendidas por ela são excluídos, sendo o processo repetido até quando não

existam mais exemplos corretamente classificados.

Como arquivo de entrada foi utilizada à base de dados final alcançada no encerramento dos

testes com um período de coleta de dados de 12 meses e nas configurações do algoritmo foi

selecionado o atributo empresa como o elemento classificador, os resultados obtidos foram bastante

satisfatórios. Com a execução do algoritmo chega-se a um modelo com 45 regras, onde puderam ser

observadas algumas regras formadas através da Figura 24, onde o que está após o caractere “=>”

significa o resultado e o que vem antes, as condições necessárias para se chegar lá.

13

Um problema complexo é decomposto em sub-problemas mais simples para facilitar o processo para atingir os

objetivos.

67

Figura 24. Execução do algoritmo JRip

Como pode ser visto na Figura 25 as estatísticas do modelo gerado com a execução do

algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).

68

Figura 25. Estatísticas do algoritmo JRip

Como pode ser visto na Figura 26 a matriz de confusão do modelo gerado com a execução

do algoritmo JRip segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).

69

Figura 26. Matriz de confusão do algoritmo JRip

3.2.4.2.4 Algoritmo PART (rules)

Este é o último algoritmo selecionado, segundo do tipo regras de classificação, que se

caracteriza por construir regras a partir de árvores de decisão parciais criadas pelo algoritmo J48,

onde gera uma árvore parcial em cada iteração e converte a melhor folha em regra.

Foi utilizado o arquivo final como entrada com um período de 12 meses de registros e nas

configurações do algoritmo foi selecionado o atributo empresa como o elemento classificador e os

resultados obtidos foram bastante satisfatórios. Com a execução do algoritmo chega-se a um

modelo com 46 regras, observando algumas regras formadas através da Figura 27, onde o que está

após o caractere “:” significa o resultado e o que vem antes, as condições necessárias para se chegar

lá.

70

Figura 27. Execução do algoritmo PART

Como pode ser visto na Figura 28 as estatísticas do modelo gerado com a execução do

algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados anteriormente).

71

Figura 28. Estatísticas do algoritmo PART

Como pode ser visto na Figura 29 a matriz de confusão do modelo gerado com a execução

do algoritmo PART segue o mesmo formato dos algoritmos do tipo árvore (estudados

anteriormente).

72

Figura 29. Matriz de confusão do algoritmo PART

3.3 PÓS-PROCESSAMENTO

Nesta etapa os resultados alcançados com o processamento dos dados da fase anterior serão

analisados, selecionados, validados e formatados para que seja exibido ao usuário final apenas o

conhecimento relevante que foi obtido com a metodologia aplicada. Para isso, serão utilizadas as 3

atividades descritas a seguir:

3.3.1 Validação e simplificação do modelo

Para fins de testes o arquivo que serve de base de dados é dividido em duas partes, uma que

é utilizada para treinamento do algoritmo e fornecerá as regras do modelo de conhecimento; e a

outra parte será reservada para a realização de testes que serão utilizados para medir o desempenho

das regras formadas e sua persistência, gerando os indicadores estatísticos do modelo de

conhecimento, que neste trabalho servirá também para efetivar a validação e simplificação das

regras obtidas.

O arquivo de dados que foi utilizado pelos algoritmos experimentados foi submetido a todas

as opções de testes que a ferramenta de Mineração disponibiliza, onde podemos observar sua

relação na Figura 15 no destaque B da interface da tarefa de classificação. Os resultados obtidos em

73

seus modelos foram muito similares entre eles não havendo reduções drásticas de um para outro. A

seguir seguem detalhes destes modos de testes experimentados.

O primeiro modo de teste é o Training test que se caracteriza por fazer a predição (regras) e

testar com o próprio conjunto de treinamento submetido ao classificador. Depois vem o Supplied

test set que faz as regras e testa em outro conjunto de teste inserido pelo botão set pelo usuário,

onde neste trabalho os testes foram conduzidos em grande parte por um arquivo de treinamento com

8 meses de registros e um arquivo teste com 4 meses. Logo vem o modo Cross-Validation que é

avaliado por validação cruzada, o conjunto de teste é divido em partes iguais e a predição é aplicada

em cada um separadamente, neste projeto foi utilizado o fator 10 (quantidade de partes). E o último

é o Percentage Split que faz a predição baseada na porcentagem dos dados que o usuário determina

na própria ferramenta, neste estudo foi utilizada a porcentagem de 66%.

Agora, será trabalhado o modelo de conhecimento gerado pelos algoritmos, onde será

efetuada sua validação e simultaneamente a exclusão de detalhes e de conjunto de informações que

são irrelevantes e de baixa confiança, de forma a torná-lo mais enxuto, legível e com informações

que agreguem conhecimento ao usuário e legitimidade nos resultados.

Para fins de validação do desempenho dos algoritmos de classificação serão utilizadas as

métricas extraídas do próprio modelo gerado que nos representarão a validade das descobertas

realizadas e sua credibilidade. Segundo Silva (2007) “vários autores utilizam técnicas estatísticas

para avaliar a capacidade de representação do conhecimento adquirido sob a forma de regras”.

Será adotado o modelo proposto por Romão (2002 apud SILVA, 2007), onde ele observa

que há varias formas de avaliar o processo de descoberta de conhecimento, mas destaca 3 em

particular: a exatidão dos resultados, a eficiência deles e a compreensão do conhecimento extraído.

Para a exatidão dos dados será observado medidas de quantidades de acertos tanto no

modelo como um todo, quanto nas regras e classificações formadas individualmente. “A maior

parte da Literatura utiliza taxa de acerto como principal meio de avaliação das técnicas de KDD”

(FREITAS, 1997 apud SILVA, 2007).

74

Para sua eficiência teremos como referencia o elemento chamado “Kappa Statistic” que é

um índice que compara o valor encontrado nas observações com aquele que se pode esperar do

acaso. É o valor calculado dos resultados encontrados nas observações e relatado como um decimal

(0 a 1).Quanto menor o valor de Kappa menor a confiança da observação, o valor 1 indica a

correlação perfeita, difícil de ser encontrada. E segundo Silva (2007) para ser boa uma observação,

com 95% confiável, o valor de Kappa deve estar no intervalo (0.279 – 0.805). E também há a

interpretação feita por Landis e Koch (1977 apud Mori, 2008) que sugere que os valores acima de

0.75 representam excelente concordância, valores abaixo de 0.40 uma baixa concordância e os

valores situados entre 0.40 e 0.75 representam concordâncias de suficiente a boa (mediana).

E, finalmente, a compreensão dos resultados, ou seja, serão aproveitadas somente as regras

que tragam informações significantes e interpretáveis. “Facilidade de compreensão nos resultados

da classificação (ex. nas regras) é outra forma de avaliação do processo de descoberta que favorece

a credibilidade no sistema por parte do usuário” (SILVA, 2007).

Então, chegou-se a 3 algoritmos que obtiveram aprovação em seus modelos gerados (onde já

foram descritos na seção resultados obtidos), sendo a seguir detalhados e simplificados, de maneira

que somente serão selecionadas as regras e árvores formadas que sejam validadas, deixando

permanecer somente os resultados persistentes e satisfatórios aos objetivos do projeto.

3.3.1.1 Algoritmo J48 (tree)

Neste algoritmo notou-se através das estatísticas gerais do modelo (Figura 22) que o

conjunto de regras que se formaram trouxe resultados satisfatórios, pois seu índice kappa

apresentou valor de 0.60 sendo considerado um valor acima da media pela literatura. E apresentou

um percentual de instâncias classificadas corretamente de 61,85% contra 38,15% classificadas

erroneamente, dados estes não tão favoráveis mais que foram compensados se analisarmos

individualmente cada classe (empresa), conforme demonstrado a seguir.

Mas o modelo se destacou positivamente com destacado grau de validação quando

analisamos os resultados individualmente, tanto pelas classes classificadoras quanto pelas regras

formadas. Se observarmos os índices relativos a cada classe no item “Detailed Accuracy by Class” e

também na “Confusion Matrix” (Figuras 22 e 23) notamos que as classes formadas pelas empresas

75

OGXP, Gerdau, Banco do Brasil e Rossi apresentaram índices relevantes no indicador F-Measure (é

um importante índice que é usado para medir a performance pois combina valores de cobertura e

precisão de uma regra numa única fórmula) com valores respectivos de 0.976, 0.754, 0.789 e 0.725

(que variam de 0 a 1), e valores altos de classificações corretas obtendo taxas de acerto respectivas

de 98%, 89%, 85% e 68%.

E agora, analisando a ultima fase da validação que engloba a compreensão dos resultados

tem-se que direcionar a atenção para as 61 classificações efetuadas (que podem ser traduzidas

através de regras). Mas analisaremos apenas as regras geradas que cheguem as 4 empresas

validadas até o momento, pois as demais foram descartadas por não apresentarem índices tão

satisfatórios. Então, após a interpretação do conhecimento transmitido pelas regras e observação de

seu grau de significância e levando em conta também o numero de casos cobertos e classificados

corretamente por ela (valor entre parênteses após o nome da empresa, onde o primeiro significa os

corretos e o segundo os incorretos), decidiu-se em excluir as descobertas que envolvam as classes

OGXP e Gerdau, permanecendo as empresas Banco do Brasil e Rossi que apresentaram relevância

nas regras que foram selecionadas, conforme se pode observar em destaque (sublinhado) nas

Figuras 30 e 31 respectivamente.

Figura 30. Regras do J48 com resultado Banco do Brasil

76

Figura 31. Regras do J48 com resultado Rossi

3.3.1.2 Algoritmo JRip (rules)

O modelo de conhecimento gerado por este algoritmo apresentou bons resultados em nível

de validação por indicadores (Figura 25), onde em seu índice kappa apresentou valor de 0.55 sendo

considerado um valor bom pela literatura Apresentou um percentual de instâncias classificadas

corretamente de 57,59% contra 42,41% classificadas erroneamente, dados estes não tão satisfatórios

mais que foram compensados se analisarmos isoladamente cada empresa conforme citado a seguir.

E como no algoritmo J48, apresentou índices relevantes em algumas classes classificadoras

(empresas) e também nas regras individualmente formadas, também visto nas Figuras 25 e 26. Mas

na etapa de validação por importância do conhecimento gerado seu desempenho não foi tão

satisfatório, pois, mesmo ele apresentando regras persistentes e confiáveis deixou a desejar na

qualidade das regras formadas, onde analisando uma por uma das 45 geradas não houve alguma que

se destaque por sua significância ou que trouxesse algum valor agregado diferenciado. Portanto,

decidiu-se por não selecionar nenhuma regra deste algoritmo, mas não significando que ele tenha

sido ineficiente na sua função de geração de regras.

77

3.3.1.3 Algoritmo PART (rules)

Este algoritmo apresentou bons resultados em seus indicadores como pode ser verificado na

Figura 28, onde em seu índice kappa apresentou valor de 0.57 sendo considerado um valor bom

pela literatura. Obteve um índice de instâncias classificadas corretamente de 59,71% contra 40,29%

classificadas erroneamente, dados estes não satisfatórios mais que foram compensados se

analisarmos isoladamente cada empresa conforme podemos verificar a seguir.

Exibiram índices consideráveis se forem analisadas as regras individualmente formadas e as

melhores classificações efetuadas por empresa, também vistas nas Figuras 28 e 29. No entanto na

fase de validação por relevância do conhecimento gerado seu desempenho não foi tão satisfatório.

Apresentou regras persistentes e confiáveis, mas diminuiu sua qualidade na importância das regras

obtidas, onde analisando uma por uma das 46 geradas não houve alguma que se destaque por sua

significância ou que trouxesse algum valor agregado diferenciado. Assim sendo, não foi selecionada

nenhuma regra deste algoritmo, mas não significando que ele tenha sido ineficiente na sua função

de geração de regras.

3.3.2 Transformação do modelo e apresentação dos resultados

Neste item será trabalhado com a estrutura do modelo de conhecimento, ou seja, para

facilitar o entendimento dos resultados selecionados e para que se obtenha uma interface mais

agradável será transformada a forma de apresentação dos conhecimentos obtidos no algoritmo que

foi validado em todas as etapas, conforme constante no item anterior.

Algoritmo J48 (trees)

Para melhor entendimento, foi efetuada uma mudança na forma de exibição dos resultados

alcançados, onde foi convertido o formato de árvore para o de regra. E o atributo data (constante

somente nas classificações que envolvem a empresa Rossi) que se apresentava de forma codificada,

foi realizada a sua transformação para o formato de data normal através do método TimeStamp14

.

14

É uma função utilizada nos algoritmos para transformar as datas reais em códigos, que são mais facilmente

manuseáveis.

78

Na Figura 32 são apresentadas estas mudanças e a forma resumida e suficiente de apresentação do

conhecimento obtido com a execução do algoritmo J48.

Figura 32. Descobertas do algoritmo J48

E para auxiliar nesta tarefa foi desenvolvida uma ferramenta que exibi na integra os arquivos

mais importantes que envolveram este Trabalho, tanto os dados que foram utilizados para a geração

de resultados como também arquivos que exibem os resultados gerados, inclusive o conhecimento

obtido pelos algoritmos. Na Figura 33 podemos verificar a tela principal desta ferramenta com estas

opções.

Figura 33. Ferramenta desenvolvida

79

3.3.3 Análise dos resultados

O algoritmo J48 obteve três regras que serão detalhadas e explicadas a seguir:

A primeira que envolve o Banco do Brasil como resposta pode ser interpretada como

que se a quantidade de negócios realizadas no pregão regular da Bovespa ficar

compreendido entre a quantidade de 4.984 e 6.995 negócios fechados no dia ele possuíra

tendência de alta extrema de seus papéis, chegando a cotações superiores a 4.43,

conforme os casos amostrados na regra. E analisando também as demais regras que

envolvem esta classe (Figura 30) pode-se dizer também que nos dias que há grandes

quantidades de negócios fechados, acima da média diária de seus papéis, suas cotações

tendem a subir expressivamente;

A segunda regra selecionada nos informa que em datas posteriores a 16 de março de

2009 os papéis da empresa Rossi tendem a cair para níveis inferiores ou iguais a -2.46

quando o numero de negócios fechados em um dia de pregão atingem a marca de 1.994

a 2933(inclusive) negócios realizados, possuindo tendência oposta aos papéis do Banco

do Brasil; e

Já a ultima regra vai ao sentido oposto à segunda, pois diz que em período posterior a 01

de abril de 2009 a tendência é de alta de mais de 3% quando o numero de negócios fica

compreendido entre 1.872 e 2933(inclusive). Então, analisando as duas regras que

envolvem a empresa Rossi e também as demais regras que envolvem esta classe (Figura

31) chega-se a conclusão que quando o numero de negócios realizados sai de sua

quantidade corriqueira os papeis podem se comportar de maneira opostas, caindo

consideravelmente ou o inverso.

Com esses resultados, pode ser dito que as descobertas realizadas são informações que

podem auxiliar os investidores em suas tomadas de decisões quando estão negociando em Bolsa de

Valores. Pois, sabendo a maneira como o ativo se comporta, ou seja, as oscilações de suas cotações

baseados em determinados fatores, o investidor, com base nessa informação, pode colocar uma

ordem de compra ou venda de uma ação dessas empresas, envolvidas na descoberta, em ocasião

oportuna que gere uma antecipação dele ao movimento do papel, podendo dessa atitude resultar em

um lucro maior ou evitando uma perda de capital ou pelo menos minimizando sua perda. Além de

várias outras utilidades que a descoberta pode trazer.

4 CONCLUSÕES

O trabalho aborda todos os itens previstos para a sua conclusão, onde foi conceituada toda a

metodologia empregada e descrito com detalhes o projeto e resultados esperados, inclusive com

testes e validações.

Na primeira metade do trabalho foi detalhada toda a fundamentação teórica, onde foi visto

com precisão conceitos a respeito do contexto em que o projeto é empregado e foi de grande valia

os conhecimentos adquiridos nesta etapa, pois serviram de base para o desenvolvimento do projeto.

A fundamentação iniciou-se com a caracterização da Bolsa de Valores explicando os

componentes que o compõem, seu funcionamento, características da bolsa de ações brasileira e

principalmente formas de analisá-la. Logo em seguida, foi abordada a metodologia de Mineração de

Dados com sua definição, fases, tarefas e técnicas, onde foi o principal conceito que auxiliou no

desenvolvimento do projeto. Depois, são demonstradas as ferramentas disponíveis no mercado que

executam a DM com todas suas características marcantes que serviu de base para escolha da

ferramenta que é utilizada no projeto. Para finalizar, foi visto como está enquadrado o uso da

Inteligência Artificial no mercado financeiro para dar base à descrição de 5 projetos científicos que

a utilizam como ferramenta na Bolsa de Valores, mas lembrando que nenhuma utiliza os mesmos

mecanismos adotados neste trabalho.

Na segunda metade do trabalho foi abordado o desenvolvimento do projeto, que foi

subdividido em três fases:

Sendo a primeira etapa o pré-processamento dos dados, onde ao final chegou-se a um

arquivo formatado e padronizado com até 5.094 registros e 5 atributos, que serviram de

entrada a ferramenta que executou os dados, sendo que chegou-se a um arquivo final

após a realização dos diversos testes onde decidiu-se pela configuração do arquivo que

melhor se comportou com os algoritmos escolhidos;

Na segunda fase esses dados foram processados (Mineração de Dados) pelos 3

algoritmos escolhidos, depois de realizado diversos testes para a seleção da tarefa e

81

algoritmos que trouxeram os melhores resultados. A tarefa escolhida foi a Classificação,

pois se encontrou muita dificuldade em encontrar algoritmos com resultados satisfatórios

nas 2 tarefas restantes (agrupamento e associação), mesmo realizando diversas

mudanças nas configurações da base de dados para que se tornasse ativo todos os

algoritmos que a ferramenta disponibiliza nesta duas tarefas.

E na última fase do projeto foram analisados os modelos gerados após a realização do

processamento dos dados. Os resultados gerados passaram por validações e

transformações que deixaram as descobertas finais mais claras e confiáveis. Observou-se

que os algoritmos não apenas geraram as regras, mas acrescentou a partir das saídas

geradas as técnicas de validação, que compreenderam vários indicadores estatísticos, o

que significou uma avaliação da confiabilidade do conhecimento gerado.

Os testes realizados foram de grande valia para o projeto, pois nos permitiu chegar a um

arquivo final com configurações e atributos que melhor se comportaram com o objetivo do trabalho,

e também possibilitou que fossem tiradas diversas conclusões a seu respeito, como: que as tarefas

de Agrupamento e Associação não são boas alternativas de uso neste contexto; que a inclusão do

índice Dow Jones e a manutenção do índice Bovespa não trouxeram resultados diferenciados nos

modelos gerados, sendo que não houve associações importantes com as demais empresas estudadas;

que o período de coleta de dados de 8 e 12 meses se mostraram eficientes e que havendo a sua

diminuição ou majoração sua eficiência é diminuída; que a melhor forma de declaração do atributo

cotação é realmente de forma numérica e do atributo data em forma de data(fornecida pela

ferramenta); e que o atributo que identifica o número de negócios realizados potencializo os

resultados obtidos.

A forma de validar as descobertas realizadas foi um meio que transmitiu confiança no

resultado final do trabalho, pois se mostrou eficaz analisar sua eficiência através de indicadores que

transmitem através de porcentagens como aquelas regras geradas se comportam em períodos e

registros diferentes das utilizadas para gerá-las. Além da importância da forma de validar também

pela significância dos resultados que trouxe apenas o conhecimento com relevância.

Se forem analisados apenas os índices gerais, que se referem a todo o conteúdo gerado no

modelo de conhecimento obtido pela execução dos algoritmos, pode-se dizer que o número de

82

instâncias classificadas corretamente e as taxas de erros trouxeram resultados não muito

satisfatórios, como já era previsto no inicio dos estudos, tendo em vista que o mercado acionário é

muito inconstante e dependente de diversos fatores externos. Mas por outro lado, se for observado o

desempenho de algumas empresas nas matrizes de confusões que foram geradas, pode-se notar o

alto desempenho que elas obtiveram, ou seja, as regras formadas que se relacionaram as estas

empresas obtiveram ótimo desempenho devido aos registros da base de dados que envolvem estas

determinadas empresas se comportarem exatamente como a regra a define, gerando alto número de

acertos, por isso também que as regras que envolvem essas empresas conseguiram um desempenho

consistente.

Nestas validações selecionaram-se apenas regras geradas pelo algoritmo J48, que foi o que

trouxe mais confiabilidade e significância em seus resultados, mas não significa que os outros dois

algoritmos (JRip e Part) estudados não tenham trazido resultados importantes, com certeza

poderíamos ter selecionado diversas regras geradas por eles se fosse diminuído o grau de exigência

nas descobertas, mas realmente as mais relevantes quem atingiu foi o algoritmo J48. Se for

contabilizado os resultados obtidos pelos 3 algoritmos estudados chegou-se a mais de 150 regras

formadas, sendo que cada uma demonstra tendências e padrões que foram extraídos da base de

dados (arquivo de entrada), cada uma com seu grau de importância, portanto não pode-se dizer que

o conhecimento obtido limitou-se há apenas essas 3 regras formadas pelo algoritmo J48.

Com os resultados alcançados pode-se dizer que a Mineração de Dados demonstrou-se

eficiente na função que lhe foi proposta, onde conseguiu identificar indícios de que as cotações

diárias de alguns papéis estudados apresentaram padrões de comportamento por diversas vezes no

período estudado. Mas cabe destacar que as descobertas realizadas não são garantias de sucesso em

seus investimentos, pois se trata de um mercado altamente volátil e sem garantias, e que esses

resultados foram eficientes no período estudado não garantido que será também em outros períodos,

pois já foi demonstrada baixa no desempenho em períodos maiores, conforme podemos verificar

nos testes efetuados.

E respondendo as perguntas problemas feitas no inicio deste trabalho no item

Problematização pode-se dizer que quanto a questão de melhor previsibilidade deste tipo de

mercado, a DM pode ajudar nesta tarefa onde através dos padrões formados com a execução dos

algoritmos chega-se a um fator que pode auxiliar indicando o momento mais oportuno de entrar ou

83

sair de um determinado papel da bolsa de valores, respondendo também a questão de aumentar a

rentabilidade correndo um menor risco pois conseqüentemente tendo ciência destas possíveis

tendências, o investidor terá probabilidades de minimizar seu risco mesmo em busca de uma

maximização nos lucros. No questionamento se há padrões nos movimentos das cotações pode-se

dizer que foram encontrados indícios (através dos resultados alcançados) sobre esse comportamento

vicioso que eles sofrem, de uma forma similar a Dissertação de Mestrado concluída por Giuliano

Padilha Lorenzoni (no item 2.5 – Trabalhos similares) nos trouxe a respeito das análises técnicas

aplicadas atualmente (Grafismo). E na última indagação sobre como aproveitar o histórico destas

ações para tirar conclusões sobre seus movimentos futuros, conclui-se que foi este o proveito que a

Mineração de Dados nos proporcionou neste projeto e que irá proporcionar na continuidade de seus

estudos nesta área.

Mas o proveito principal obtido deste trabalho foi o ponto de partida para que este estudo

sirva de base e incentivo para que se de continuidade nos estudos científicos desta unificação de

áreas (Investimentos + Mineração de Dados) e que provoquem os especialistas na área de

investimentos na bolsa de valores, principalmente os que norteiam suas aplicações e recomendações

em ações baseados nas análises técnicas, para que prestem atenção na potencialidade que a

metodologia de Mineração de Dados pode fornecer.

Em trabalhos futuros podemos indicar a possibilidade de se enriquecer ainda mais o arquivo

de entrada para o processamento dos dados, com o incremento de mais atributos com finalidades

diversas poderia trazer comportamentos diferentes nos algoritmos com isso havendo a possibilidade

de serem selecionados tarefas e algoritmos diferentes aos estudados neste projeto, inclusive com

mais associações em suas regras trazendo conhecimento novo aos resultados gerados. Há também a

possibilidade de se trabalhar com as configurações destes algoritmos escolhidos neste trabalho, já

que trabalhamos com uma ferramenta de código aberto, possibilitando assim a realização de

modificações no código fonte destes algoritmos, para que se tornem ainda mais potentes na suas

tarefas de geração de resultados. E também realizar um estudo mais profundo utilizando esta

tecnologia para verificar os efeitos que o índice Dow Jones traz em relação às cotações de nossas

empresas e em relação ao nosso índice Ibovespa e detectar até que ponto nosso mercado acompanha

o deles.

84

REFERÊNCIAS BIBLIOGRÁFICAS

AMORIM, Thiago. Conceitos, técnicas, ferramentas e aplicações de mineração de dados para

gerar conhecimento a partir de bases de dados. 2006. Trabalho de Conclusão de Curso

(Graduação em ciência da computação) - Centro de Informática, Universidade Federal de

Pernambuco, Recife, 2006. Disponível em: <http://www.cin.ufpe.br/~tg/2006-2/tmas.pdf>. Acesso

em: 20 ago. 2009.

ANBID. Portal “como investir?”. 2009. Disponível em:

<http://www.comoinvestir.com.br/acoes/guia-de-acoes/tipos-de-acoes/Paginas/default.aspx>.

Acesso em: 01 nov. 2009.

BM&FBOVESPA. Guia online do mercado de ações. Página online. São Paulo:

BM&FBOVESPA S.A., 2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso

em: 25 ago. 2009a.

______. Mercado – ações – dados históricos. Página online. São Paulo: BM&FBOVESPA S.A.,

2009. Disponível em:< http://www.bovespa.com.br/Principal.asp>. Acesso em: 01 out. 2009b.

BOLSÃO. Brasil é o 4° país preferido das multinacionais para investimento. Jornal Bolsão,

Balneário Camboriú, pag. 7, 06 ago. 2009.

CARVALHO, Luiz Alfredo Vidal de. Datamining: a mineração de dados no marketing, medicina,

economia, engenharia e administração. São Paulo: Érica, 2001.

DIAS, Carlos Henrique. Um novo algoritmo genético para a otimização de carteiras de

investimento com restrições de cardinalidade. 2008. Dissertação (Mestrado em Matemática

Aplicada) - Instituto de Matemática, Estatísticas, e Computação Científica, Universidade Estadual

de Campinas, Campinas, 2008. Disponível em:

<http://libdigi.unicamp.br/document/?code=vtls000438801>. Acesso em: 20 ago. 2009.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel Lopes. Data mining: um guia prático: conceitos,

técnicas, ferramentas, orientações e aplicações. Rio de Janeiro: Elsevier, 2005.

IBM. IBM DB2 data warehouse edition. 2009. Disponível em:<http://www-

306.ibm.com/software/data/db2/dwe/>. Acesso em: 01 set. 2009.

KLEINSCHMIDT, Marlon. Mineração de dados para avaliação do perfil de usuários do

sistema de informação da academia da UNIVALI. 2007. Trabalho de Conclusão de Curso

(Graduação em ciência da computação) - Centro de Ciências Tecnológicas da Terra e do Mar,

Universidade do Vale do Itajaí, Itajaí, 2007. Disponível em: <http://www.univali.br/>. Acesso em:

25 ago. 2009.

LAZO, Juan Guilherme Lazo. 2000. Sistema híbrido genético-neural para montagem e

gerenciamento de carteiras de ações. 2000. Dissertação (Mestrado em Engenharia Elétrica) -

Departamento de Engenharia Elétrica, Universidade Católica do Rio de Janeiro, Rio de Janeiro

2000. Disponível em: <http://www.maxwell.lambda.ele.puc-

rio.br/Busca_etds.php?strSecao=resultado&nrSeq=7541@1>. Acesso em: 20 ago. 2009.

http://www.comoinvestir.com.br/acoes/guia-de-acoes/tipos-de-acoes/Paginas/default.aspx

http://www.bovespa.com.br/Principal.asp

http://www.bovespa.com.br/Principal.asp

85

LORENZO, Francine de. Nem sempre as small caps são as mais arriscadas na Bovespa. Portal

Exame, São Paulo, jun. 2009, exame/finanças. Disponível

em:<http://portalexame.abril.com.br/financas/esta-hora-investir-small-caps-474274.html>. Acesso

em: set. de 2009.

LORENZONI, Giuliano Padilha. Uma investigação estatística sobre análise técnica. 2006.

Dissertação de Mestrado (Mestre pelo programa de Pós-Graduação em Engenharia Elétrica) –

Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro, Rio de

Janeiro, 2006. Disponível em: <http://www.maxwell.lambda.ele.puc-

rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9192@1>. Acesso em: 08 dez. 2009.

MELLO, Maria Terra. Aplicação de redes neurais artificiais no processo de precificação de

ações. 2004. Trabalho de Conclusão Curso (Graduação em Ciência da Computação) - Instituto de

Física e Matemática, Universidade Federal de Pelotas, Pelotas, 2004. Disponível em:

<http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2004/mono_marilia.pdf>. Acesso em: 20 ago.

2009.

MORI, Luci Mercedes de. Sistema de informação gerencial para previsão de produtividade do

trabalho na alvenaria de elevação. 2008. Tese (Doutor em Engenharia Civil) - Programa de Pós-

Graduação em Engenharia Civil, Universidade Federal de Santa Catarina, Florianópolis, 2008.

Disponível em: < http://www.tede.ufsc.br/teses/PECV0552-T.pdf >. Acesso em: 31 maio 2010.

NAPOLITANO, Giuliana. O brilho da bolsa. Revista Exame, São Paulo, n° 16, 26 ago. 2009.

PARREIRAS, Luiz Paulo Rodrigues de Freitas. 2003. Modelo genético-neural de gestão de

carteiras de ações. 2003. Trabalho de Conclusão de Curso (Graduação em Engenharia da

Produção) - Departamento de Engenharia de Produção, Escola Politécnica da Universidade de São

Paulo, São Paulo, 2003. Disponível em:

<http://www.pro.poli.usp.br/projetos/pro/publicacoes/trabalhos-de-formatura/modelo-genetico-

neural-de-gestao-de-carteiras-de-acoes>. Acesso em: 25 ago. 2009.

PINHEIRO, Juliano Lima. Mercado de capitais: fundamentos e técnicas. 3 ed. São Paulo: Atlas,

2005.

SANTANA, Helton; RODRIGUES, Danilo. 2005. Uso de árvore de decisão em mineração de

dados. 2005. Artigo - Departamento de Ciências da computação, Universidade Federal da Bahia,

Salvador, 2005. Disponível em:

http://im.ufba.br/pub/MATA64/SemestreArtigos20052/ArtigoIAHeltonDanilo.pdf. Acesso em: 10

out. 2009.

SAS. SAS enterprise miner. 2009. Disponível em:

<http://www.sas.com/technologies/analytics/datamining/miner/>. Acesso em: set. de 2009.

SILVA, Gercely da Silva e. Estudo de técnicas e utilização de mineração de dados em uma base

de dados da saúde pública. 2003. Trabalho de Conclusão de Curso (Graduação em Ciência da

Computação) - Curso Superior de Tecnologia em Informática, Universidade Luterana do Brasil,

Canoas, 2003. Disponível em:

<http://projetos.inf.ufsc.br/arquivos_projetos/projeto_635/Estudo%20de%20T%E9cnicas%20e%20

http://www.maxwell.lambda.ele.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9192@1

http://www.maxwell.lambda.ele.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9192@1

http://www.ufpel.tche.br/prg/sisbi/bibct/acervo/info/2004/mono_marilia.pdf

http://im.ufba.br/pub/MATA64/SemestreArtigos20052/ArtigoIAHeltonDanilo.pdf

http://www.sas.com/technologies/analytics/datamining/miner/

86

%20Utiliza%E7%E3o%20de%20Minera%E7%E3o%20de%20Dados.pdf >. Acesso em: 10 out.

2009.

SILVA, Inara Aparecida Ferrer. Descoberta de conhecimento em base de dados de

monitoramento ambiental para avaliação da qualidade da água. 2007. Dissertação (título de

Mestre em Física e Meio Ambiente) – Programa de Pós-Graduação em Física e Meio Ambiente,

Universidade Federal de Mato Grosso, Cuiabá-MT, 2007. Disponível em:

<http://pgfa.ufmt.br/pagina/index2.php?option=com_docman&task=doc_view&gid=92&Itemid=39

>. Acesso em: 31 maio 2010.

SILVA, Marcelino Pereira dos Santos. Mineração de Dados - conceitos, aplicações e experimentos

com Weka. 2006. Artigo - Instituto Nacional de Pesquisas Espaciais, Universidade do estado do Rio

Grande do Norte, Mossoró, 2006. Disponível em:

<www.sbc.org.br/bibliotecadigital/download.php?paper=35>. Acesso em: 10 out. 2009.

SILVEIRA, Sidnei Renato; BARONE, Dante Augusto Couto. Jogos educativos

computadorizados utilizando a abordagem de algoritmos genéticos. 1998. Artigo (Curso de

Pós-Graduação em Ciência da Computação) - Instituto de Informática, Universidade do Rio Grande

do Sul, Porto Alegre, 1998. Disponível em:

<http://lsm.dei.uc.pt/ribie/docfiles/txt200342421140151.PDF>. Acesso em: 20 ago. 2009.

STAHNKE, Fernando Rafael. Uso de data mining no mercado financeiro. 2008. Trabalho de

Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciências Exatas e

Tecnológicas, Centro Universitário FEEVALE, Novo Hamburgo, 2008. Disponível em:

<http://tconline.feevale.br/tc/files/0001_1749.pdf>. Acesso em: 25 ago. 2009.

TEIXEIRA, Alexandre. Você entregaria seu investimento a este gestor? Revista Online. São

Paulo: ISTOÉ Dinheiro, 2006. Disponível em

<http://www.terra.com.br/istoedinheiro/448/financas/investimento_gestor.htm>. Acesso em: 15 set.

2009.

UOL. Guia: saiba investir em ações. 2009. Disponível em:

<http://economia.uol.com.br/ultnot/2008/05/14/guia_bovespa_bolsa_valores_aplicar_acoes.jhtm>.

Acesso em: 01 nov. 2009.

UNIVERSIDADE DE WAIKATO. Waikato Environment for Knowledge Analysis - Weka.

Ferramenta versão 3.7.1. Hamilton - Nova Zelândia: (c) 1999-2009.

VEJA. IPO do Santander bate record: 14 bi de reais. Revista Online. São Paulo: Revista Veja,

2009. Disponível em: <http://veja.abril.com.br/noticia/economia/ipo-santander-bate-recorde-14-bi-

reais-503943.shtml>. Acesso em: 25 nov. 2009.

http://www.sbc.org.br/bibliotecadigital/download.php?paper=35

http://lsm.dei.uc.pt/ribie/docfiles/txt200342421140151.PDF

http://tconline.feevale.br/tc/files/0001_1749.pdf

modelo de tcc para o curso de ciência da computação da …siaibib01.univali.br/pdf/marcelo...

Documents