estudo comparativo de algoritmos de classificação em bases...
TRANSCRIPT
Idilio Drago
Estudo comparativo de algoritmos de classificaçãoem bases de dados com atributos temporais
Vitória - ES, Brasil
27 de setembro de 2007
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Idilio Drago
Estudo comparativo de algoritmos de classificaçãoem bases de dados com atributos temporais
Dissertação apresentada ao Programa de Pós-Graduação em Informática da Universidade Fe-deral do Espírito Santo para obtenção do títulode Mestre em Informática.
Orientador:
Flávio Miguel Varejão
PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA
DEPARTAMENTO DE INFORMÁTICA
CENTRO TECNOLÓGICO
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO
Vitória - ES, Brasil
27 de setembro de 2007
Dados Internacionais de Catalogação-na-publicação (CIP)(Biblioteca Central da Universidade Federal do Espírito Santo, ES, Brasil)
Drago, Idilio, 1980-D759e Estudo comparativo de algoritmos de classificação em bases de dados
com atributos temporais / Idilio Drago. – 2007.79 f. : il.
Orientador: Flávio Miguel Varejão.Dissertação (mestrado) – Universidade Federal do EspíritoSanto,
Centro Tecnológico.
1. Reconhecimento de padrões. 2. Análise de séries temporais-Processamento de dados. 3. Árvores de decisão. I. Varejão,FlávioMiguel. II. Universidade Federal do Espírito Santo. CentroTecnológico.III. Título.
CDU: 004
Dissertação de Mestrado sob o título“Estudo comparativo de algoritmos de classificação
em bases de dados com atributos temporais”, defendida por Idilio Drago e aprovada em 27 de
setembro de 2007, em Vitória, Estado do Espírito Santo, pelabanca examinadora constituída
pelos doutores:
Prof. Dr. Flávio Miguel VarejãoOrientador
Prof. Ph.D. Thomas Walter RauberExaminador Interno
Prof. Dr. Alexandre PlastinoExaminador Externo
Sumário
Lista de Figuras
Lista de Tabelas
Resumo
Abstract
1 Introdução p. 11
2 Vizinho mais próximo e medidas de similaridade p. 16
2.1 O algoritmo do vizinho mais próximo . . . . . . . . . . . . . . . . . .. . . p. 16
2.2 Medidas de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . .. p. 18
2.2.1 Distância Euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . p. 18
2.2.2 Correlação linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.20
2.2.3 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . p. 21
2.2.4 Distância de edição . . . . . . . . . . . . . . . . . . . . . . . . . . . p.22
2.2.5 DTW - Dynamic time warping. . . . . . . . . . . . . . . . . . . . . p. 26
2.2.6 Métricas baseadas em transformações . . . . . . . . . . . . . .. . . p. 29
2.3 Combinando várias métricas em um mesmo classificador . . .. . . . . . . . p. 32
3 Árvores de decisão com características temporais p. 35
3.1 Árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35
3.2 Construção de árvores de decisão . . . . . . . . . . . . . . . . . . . .. . . . p. 37
3.2.1 Tratamento de atributos temporais . . . . . . . . . . . . . . . .. . . p. 38
3.3 Poda e combinação de árvores de decisão . . . . . . . . . . . . . . .. . . . p. 41
4 Avaliação experimental p. 44
4.1 Ajuste de parâmetros e estimativa do erro de classificação . . . . . . . . . . . p. 44
4.2 Comparação de algoritmos de classificação . . . . . . . . . . . .. . . . . . p. 46
4.2.1 Comparação de dois classificadores em um mesmo domínio. . . . . p. 47
4.2.2 Comparação de vários classificadores em múltiplos domínios . . . . . p. 48
4.3 Avaliação de métricas para determinação do vizinho maispróximo . . . . . . p. 52
4.4 Árvore aleatória com adaptação para dados temporais . . .. . . . . . . . . . p. 56
4.5 Árvore de decisão convencional com adaptação para dadostemporais . . . . p. 59
4.6 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62
4.7 Indicação de consumidores de energia elétrica para inspeção . . . . . . . . . p. 64
5 Conclusões p. 70
5.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .p. 71
Referências Bibliográficas p. 73
Apêndice A -- Alguns experimentos adicionais p. 77
Lista de Figuras
1.1 Um problema de classificação de séries temporais. Existem 3 classes, que se
distinguem pelo formato da série. O quarto exemplo tem classe desconhecida. p. 13
2.1 Cálculo da distância Euclidiana. Uma pequena variação de fase pode ocasio-
nar diferença significativa na medida. . . . . . . . . . . . . . . . . . .. . . p. 19
2.2 Duas seqüências com distorções locais no eixo do tempo. Por volta do ins-
tantet = 20 há uma inversão no atraso entre as séries. . . . . . . . . . . . . . p. 25
2.3 Uma representação discreta das séries e o alinhamento produzido. . . . . . . p. 25
2.4 Seqüência de geração dos pesos na heurística criada paratreinar o algoritmo
NN com várias métricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34
Lista de Tabelas
2.1 Limites para divisão da Distribuição Normal Padrão em cinco intervalos eqüi-
prováveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 22
2.2 ComputandoDTW com janela de ajuster = 2. Neste caso, o caminho na
tabela de cálculo não pode se afastar mais de 2 unidades da diagonal. . . . . . p. 28
4.1 Taxa de erro média (percentual) do algoritmo do vizinho mais próximo com
métricas diversas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p.52
4.2 Valores-pe média dos postos da comparação de métricas contra a distância
Euclidiana. Valores ainda sem o ajuste requerido pela multiplicidade. . . . . p. 54
4.3 Vizinho mais próximo com combinação de métricas e melhorresultado indi-
vidual. Taxa de erro média (percentual). . . . . . . . . . . . . . . . .. . . . p. 55
4.4 Taxa de erro média (percentual) da árvore aleatória com métricas temporais
em diversos problemas de classificação. O melhor desempenhoem cada pro-
blema é escrito em negrito. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 57
4.5 Valores-pe média dos postos da comparação entre a adaptação com métricas
e a versão original da árvore extremamente aleatória. Valores ainda sem o
ajuste requerido pela multiplicidade. . . . . . . . . . . . . . . . . .. . . . . p. 58
4.6 Combinação de métricas e melhor resultado individual daárvore de decisão
aleatória adaptada. Taxa de erro média (percentual). . . . . .. . . . . . . . . p. 58
4.7 Taxa de erro média (percentual) da árvore de decisão (podada) com métricas
temporais. O melhor desempenho em cada problema é escrito emnegrito. . . p. 60
4.8 Valores-pe média dos postos da comparação da árvore com adaptação tem-
poral contra a versão não adaptada da árvore extremamente aleatória. . . . . . p. 60
4.9 Taxa de erro média (percentual) da combinação porbaggingde árvores de
decisão (sem poda) com métricas temporais. O melhor desempenho em cada
problema é escrito em negrito. . . . . . . . . . . . . . . . . . . . . . . . . .p. 61
4.10 Valores-pe média dos postos da comparação de um comitê de árvores com
adaptação temporal (combinadas porbagging) contra a versão não adaptada
da árvore extremamente aleatória. . . . . . . . . . . . . . . . . . . . . .. . p. 62
4.11 Resultado da melhor métrica em cada uma das quatro formas de classificação
avaliadas. Melhor resultado de cada problema em negrito. . .. . . . . . . . . p. 63
4.12 Taxa de erro média (percentual) da árvore aleatória e doalgoritmo do vizinho
mais próximo avaliados com os dados normalizados. . . . . . . . .. . . . . p. 67
4.13 Taxa de erro média (percentual) da árvore aleatória e doalgoritmo do vizinho
mais próximo avaliados com os dados não normalizados. . . . . .. . . . . . p. 67
4.14 F-measuremédia (percentual) da árvore aleatória e do algoritmo do vizinho
mais próximo avaliados com os dados normalizados. . . . . . . . .. . . . . p. 67
4.15 F-measuremédia (percentual) da árvore aleatória e do algoritmo do vizinho
mais próximo avaliados com os dados não normalizados. . . . . .. . . . . . p. 68
4.16 Matriz de confusão do algoritmo do vizinho mais próximousando a distância
Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 69
4.17 Matriz de confusão do classificador bayesiano com características extraídas. . p. 69
A.1 Taxa de erro do algoritmo do vizinho mais próximo com métricas de simila-
ridade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 77
A.2 Taxa de erro da árvore aleatória com métricas temporais.. . . . . . . . . . . p. 79
A.3 Taxa de erro da combinação porbaggingde árvores de decisão (sem poda). . p. 79
Resumo
Uma série temporal é um conjunto de dados que possuem alguma relação variável no tempo.O tipo mais simples de série temporal é representado por uma única variável amostrada em ins-tantes regulares. Problemas de classificação supervisionada são definidos como a tarefa deassociar um rótulo a exemplos desconhecidos, a partir de informações obtidas de casos comrótulos conhecidos. Quando os casos a classificar são compostos por características tempo-rais, métodos especiais devem ser usados em algumas etapas da construção do classificador.Extração de características estáticas que descrevem as temporais e adaptação de algoritmos declassificação para manipulação direta deste tipo de atributo são as duas principais soluções ado-tadas neste tipo de problema. Há duas formas usuais de adaptar algoritmos de classificaçãopara dados temporais: desenvolvendo modelos matemáticos para descrever as séries associadasa cada classe; comparando diretamente as séries entre si ou as séries em relação a casos conside-rados padrões. Este trabalho trata apenas de métodos de classificação baseados em comparaçãode séries temporais. A questão central, neste caso, é definirmedidas de semelhança entre asséries. A partir de dois trabalhos, que enumeram um conjuntode métricas supostamente maisapropriadas para comparação de séries temporais, versões adaptadas do algoritmo do vizinhomais próximo e do algoritmo de treinamento de árvores de decisão são apresentadas. Sabendoque, em problemas com dados não temporais, a combinação de várias árvores de decisão geraclassificadores mais precisos, é proposta uma nova versão, especial para dados temporais, dométodo de treinamento de comitês de árvores extremamente aleatórias. Além disso, para ve-rificar a suposição de que várias medidas de similaridade diferentes produzem, em conjunto,melhores classificadores, um método de combinação de medidas por ponderação é proposto.Uma avaliação experimental é realizada em um conjunto de problemas reais para verificar a ex-pectativa de melhoria da taxa de acerto dos classificadores adaptados, em relação aos mesmosalgoritmos sem adaptação. No caso do algoritmo do vizinho mais próximo e da nova adaptaçãoda árvore extremamente aleatória, os resultados experimentais mostram uma considerável me-lhoria em relação às versões originais. Os resultados em um dos problemas reais - de seleçãode consumidores de energia elétrica para inspeção, são descritos em mais detalhes por se tratarde um problema ainda pouco explorado.
Abstract
A time series is a sequence of data points taken at more or lessregular intervals. Supervi-sed classification is defined as the task of assigning a label to cases, based on the informationlearned from examples with known labels. Special algorithms are needed when the examplesare represented by temporal features. The two main approaches to this kind of classificationproblem are the extraction of static (non-temporal) features from the time series and the de-velopment of special learning algorithms to deal with temporal features. In general, there aretwo ways for adapting learning algorithms to handle temporal data: developing a mathematicalmodel to represent the time series for each class; or comparing directly the series to each otheror to template cases. This work address only the classification based on direct comparisons oftime series features. We focus on using similarity measuresbetween series. Based on some me-trics, suitable for temporal data, we adapted the nearest neighbor classifier and the building stepof the decision tree algorithm. In order to improve the accuracy of the decision tree approach,we evaluated the bagging meta-algorithm with the temporal tree and proposed a new trainingalgorithm for building a committee of extremely randomizedtrees. Furthermore, we verifiedthe assumption that various similarity metrics together may produce a more accurate classifierby proposing a new heuristic, based on weights, to combine the measures in the nearest neigh-bor decision rule and a test with several metrics to the decision tree approach. We carried out aset of experiments on real-world problems to verify the hypothesis that the new algorithms arebetter than the classical ones. The results showed a considerable improvement over the originalversions, when evaluating the nearest neighbor algorithm and the new extremely randomizedtree. We also described the results obtained in a new temporal classification problem - the frauddetection on power distribution services.
11
1 Introdução
Uma série temporal pode ser definida como um conjunto de dadosque têm entre si alguma
relação variável no tempo. Pode-se, portanto, chamar de série temporal quaisquer conjuntos
de dados reais amostrados no tempo. Por exemplo, o número de acidentes de trânsito por
mês, o número de batimentos cardíacos por minuto de um paciente durante uma internação e o
consumo mensal de energia elétrica de um cliente durante o ano são eventos representáveis na
forma de séries temporais.
Roddick & Spiliopoulou (2002) organizam as informações encontradas em situações reais
em quatro categorias, de acordo com o tipo de relação de temporalidade existente:
• Estáticas: nenhum contexto temporal é incluído e nenhum pode ser inferido.
• Seqüência: lista ordenada de eventos, sem marcação do tempo. Nesta categoria incluem-
se as coleções de eventos ordenados, mas semmarcos de tempo. Normalmente, pode-se
obter, a partir deste tipo de dados, somente relacionamentos do tipo “aconteceu antes”,
“aconteceu depois” etc.
• Com marcos de tempo(timestamped): representa uma seqüência programada de even-
tos, tomados em intervalos mais ou menos regulares, com marcação do tempo. Como
exemplos, pode-se citar: censos, dados de satélites meteorológicos, dados de vendas com
marcos de tempoe atividades da Internet.
• Inteiramente temporal: cada registro possui uma relação temporal variável, com marcos
de tempo e, possivelmente, mais de uma dimensão (informaçãomultidimensional). Como
exemplos, pode-se citar os dados de medições de equipamentos (ou processos) realizadas
por vários sensores simultaneamente.
Normalmente, define-se classificação como um caso especial do aprendizado automático
em que se possui um conjunto de informações (atributos) sobre vários exemplos de algum objeto
do mundo real, e cada exemplo conhecido está associado a uma etiqueta (classe discreta). A
12
partir destes exemplos conhecidos, deseja-se construir umsistema que seja capaz de etiquetar
(atribuir a classe) a exemplos em que apenas os atributos sãoconhecidos.
A construção de um sistema de classificação é, geralmente, subdividida em algumas etapas:
obtenção dos dados, preparação dos dados (pré-processamento), seleção/extração de atributos,
escolha do algoritmo de classificação, treinamento do classificador e avaliação do classificador
treinado. Diversos algoritmos e técnicas existem em cada uma destas etapas, a maior parte des-
tinados a problemas com atributos estáticos. Theodoridis &Koutroumbas (2006) apresentam
alguns métodos aplicáveis às primeiras etapas, principalmente para seleção/extração de atribu-
tos (por exemplo, algumas heurísticas de seleção de características e o método de análise de
componentes principais para extração de novas características a partir das inicialmente existen-
tes). Sobre as demais etapas, Duda, Hart & Stork (2001) são a principal referência, por apre-
sentar boa parte dos algoritmos de classificação mais relevantes, dentre os quais, os modelos
baseados na teoria deBayes, o algoritmo do vizinho mais próximo, operceptronmulticamadas
e as árvores de decisão.
Quando existem atributosnão estáticosdentre os que representam os exemplos que se de-
seja classificar, técnicas alternativas devem ser usadas emalgumas das etapas da construção
do classificador. As principais alterações acontecem nas fases de preparação dos dados, se-
leção/extração de atributos e escolha do algoritmo de classificação. O mais comum é criar
procedimentos nas etapas de preparação dos dados e seleção/extração de atributos para alterar o
formato das informações temporais (por exemplo, para converter, por interpolação, dados com
marcos de tempo para seqüências igualmente espaçadas) ou extrair características estáticas a
partir das temporais e, então, descartar os dados originaise utilizar somente as novas carac-
terísticas com os algoritmos “convencionais” de classificação. Existem, porém, algoritmos de
classificação que podem lidar diretamente com os dados temporais.
Embora seja comum encontrar problemas reais em que os atributos sejam dos três tipos
não estáticos, este trabalho aborda apenas problemas com atributos do tipo seqüência. A partir
deste ponto, os termossérie temporale atributo temporalestarão sempre se referindo a atribu-
tos desse tipo. Os problemas estudados serão sempre de classificação de séries temporais uni-
dimensionais, ou seja, toda a informação disponível para classificar resume-se a uma seqüência
de valores de uma mesma variável, tomados em intervalo constante de tempo. A tarefa será
etiquetar séries temporais (completas) com classe desconhecida, a partir de séries com classe
conhecida. A Figura 1.1 ilustra algumas séries temporais deum problema de classificação deste
tipo. Neste problema, há três classes de séries que se distinguem pela forma - os três primeiros
quadros da figura. O quarto quadro mostra uma nova série, cujaclasse é desconhecida.
13
Exemplo 1 - classe A
Exemplo 2 - classe B
Exemplo 3 - classe C
Exemplo 4 - classe desconhecida
Figura 1.1: Um problema de classificação de séries temporais. Existem 3 classes, que se distin-guem pelo formato da série. O quarto exemplo tem classe desconhecida.
Em problemas de classificação de séries temporais, quando háconhecimento específico
sobre o processo gerador dos dados a classificar que permita que características estáticas espe-
ciais sejam criadas para formação da base de aprendizado, a melhor opção parece ser usar este
conhecimento para extrair informações não temporais das séries e treinar classificadores “con-
vencionais”. Por exemplo, os padrões que definem as classes na Figura 1.1 são bastante nítidos.
Embora existam ruídos deformando e distorcendo as séries é possível modelar características
com forte poder de discriminação para esse problema - para distinguir entre a segunda e a ter-
ceira classe bastaria uma única característica que indicasse a tendência da série, por exemplo.
Todavia, nem sempre há esse tipo de informação sobre o processo gerador dos dados temporais
e, em muitos casos, somente os exemplos com os rótulos das classes estão disponíveis.
Em problemas com padrões fortemente relacionados à forma, como no caso da Figura 1.1,
é comum recorrer a um conjunto de extratores de características de propósito geral, para criar
a maior quantidade possível de informação sobre as séries, eposteriormente selecionar neste
conjunto as características mais relevantes para discernir as classes do problema. Nesta linha,
14
Mörchen (2003) utiliza características estáticas obtidaspor meio das transformadas deFourier
e deWavelets. Nanopoulos, Alcock & Manolopoulos (2001) extraem estatísticas descritivas das
séries para compor a base de treinamento em problemas temporais. Ambos relatam resultados
melhores do que a solução, aparentemente ingênua, de treinar classificadores “convencionais”
fazendo com que cada ponto da variável no tempo seja uma característica não temporal.
Outros autores descrevem formas de classificação de séries temporais que, ao invés de ex-
traírem informações estáticas das séries, manipulam diretamente estes dados durante a constru-
ção do classificador. Nesta abordagem, duas linhas principais são geralmente seguidas: ou se
tenta gerar modelos matemáticos para descrever as séries associadas a cada classe do problema,
ou se tenta classificar através da comparação dos exemplos entre si ou através da comparação
dos exemplos a casos considerados padrões (template matching). Pode-se citar Murphy (2002),
Ge & Smyth (2000) e Abou-Moustafa, Cheriet & Suen (2004) comoexemplos de trabalhos que
seguem a primeira linha.
Neste trabalho serão avaliadas somente formas de classificação baseadas na comparação
direta entre séries temporais. Nesta forma de classificação, a questão central é decidir quando
duas séries são consideradas semelhantes. Antunes & Oliveira (2001) e Savary (2002) listam
diversas maneiras de calcular a similaridade entre seqüências, que podem ser o ponto de partida
para a adaptação do algoritmo do vizinho mais próximo e para extensão do algoritmo de treina-
mento de árvores de decisão para manipulação de atributos temporais. O restante deste trabalho
tratará somente das adaptações desses dois algoritmos com algumas das métricas listadas por
esses autores.
São três as motivações principais para estudar estas adaptações:
• Antunes & Oliveira (2001) e Savary (2002) listam diversas medidas de comparação de
séries temporais e sugerem a utilização delas como fundamento do algoritmo do vizinho
mais próximo. Ambos não fazem, porém, nenhuma avaliação da qualidade do classifica-
dor produzido com estas medidas em problemas reais.
• Yamada et al. (2003) mostram uma extensão do algoritmo de treinamento de árvores de
decisão que utiliza métricas de similaridade e comparação direta entre séries temporais.
Não há, entretanto, uma avaliação da qualidade desta adaptação em relação a do algoritmo
do vizinho mais próximo.
• O problema real de indicação de consumidores de energia elétrica para inspeção, apresen-
tado na seção 4.7, é um problema de classificação de séries temporais. Deseja-se verificar
se estes algoritmos são apropriados a ele. Neste caso, há também resultados obtidos por
15
classificadores “convencionais” com características estáticas triviais, que servirão como
base de comparação.
O Capítulo 2 apresenta resumidamente o método de classificação do vizinho mais próximo
e as medidas descritas em Antunes & Oliveira (2001) e Savary (2002). Além disso, parece ser
correto supor que métricas distintas possam produzir informações diferentes sobre as seqüências
e, eventualmente, gerar classificadores mais precisos se forem combinadas. Uma forma de
combinação de várias medidas através de ponderações é proposta neste capítulo.
No Capítulo 3 é apresentado um resumo do algoritmo de treinamento de árvores de deci-
são e a adaptação de Yamada et al. (2003) para manipulação de características temporais. Em
problemas com atributos não temporais, existem diversos trabalhos que mostram métodos que
combinam várias árvores de decisão para criação de classificadores mais precisos. O Capítulo 3
apresenta também o método de construção de comitês de árvores extremamente aleatórias, pro-
posto por Geurts, Ernst & Wehenkel (2006) para atributos nãotemporais. Baseado no trabalho
de Yamada et al. (2003), uma adaptação deste método é proposta para manipulação de atributos
temporais.
O Capítulo 4 faz uma avaliação experimental dos métodos de classificação apresentados e
propostos nos capítulos anteriores. Os principais objetivos desta avaliação são:
• Verificar a expectativa de melhoria da taxa de acerto do classificador com métricas de
similaridade especiais, dado um problema qualquer de classificação com dados temporais,
considerando como base da comparação o vizinho mais próximo“convencional”, que
calcula a distância euclidiana entre os exemplos.
• Comparar o desempenho do algoritmo de treinamento de árvores de decisão e de treina-
mento de árvores extremamente aleatórias para atributos temporais, em relação ao desem-
penho das versões “convencionais” destes algoritmos e também em relação à adaptação
do vizinho mais próximo.
• Verificar se a combinação de diversas métricas de similaridade melhora a precisão dos
classificadores.
• Avaliar estes métodos de classificação usando os dados do problema real de indicação de
consumidores de energia elétrica para inspeção.
O Capítulo 5 resume os principais resultados obtidos e indica as possíveis continuações
deste trabalho.
16
2 Vizinho mais próximo e medidas desimilaridade
No contexto de classificação em que existam séries temporaiscomo características, a abor-
dagem mais comum, ao lado da extração de novas características estáticas, é adaptar o algoritmo
não paramétrico do vizinho mais próximo para manipulação dos dados temporais. Tal adapta-
ção consiste em selecionar uma medida de similaridade mais adequada ao problema em questão,
em substituição à distância Euclidiana.
Neste capítulo, o algoritmo é apresentado resumidamente. São apresentadas também al-
gumas medidas de similaridade utilizadas na comparação de séries temporais. As principais
fraquezas do algoritmo são brevemente discutidas e as conseqüências da alteração da medida
de comparação em relação a estas fraquezas são analisadas.
2.1 O algoritmo do vizinho mais próximo
O princípio do desenvolvimento da classificação usando a regra de decisão do vizinho mais
próximo é, normalmente, atribuído a Cover & Hart (1967). Neste trabalho, os autores iniciam
a apresentação do algoritmo listando os dois extremos distintos do problema de classificação:
ou conhece-se a distribuição conjunta dos dados e das classes do problema, caso em que uma
análise deBayesleva à regra ótima de decisão e ao mínimo erro teórico, ou não se conhece
nada sobre a distribuição além daquilo que é possível extrair a partir de exemplos conhecidos
do problema em questão.
Enquanto no primeiro caso a regra de decisão é fortemente justificada, no segundo, ao
contrário, não se tem convicção sobre as regras criadas e a qualidade da classificação estará
diretamente relacionada à qualidade dos dados disponíveis.
Supondo que os exemplos conhecidos são independentes e identicamente distribuídos em
relação à distribuição original dos dados, uma heurística normalmente aceita para classificação
de casos desconhecidos é considerar que as observações suficientemente próximas (de acordo
17
com alguma métrica preestabelecida) pertencerão à mesma classe.
Tal heurística, também chamada deNN (Nearest Neighbor), é formalizada por Cover &
Hart (1967) da seguinte maneira: seja o conjunto de paresS= {(x1,θ1), . . . ,(xn,θn)}, repre-
sentando as instâncias conhecidas do problema. Em cada par,xi = [xi1,xi2, . . . ,xim]t é o vetor de
atributos eθi é a classe do exemploi. Para os problemas de interesse neste trabalho, os valores
deθi são todos pertencentes a um conjunto discreto{c1,c2, ...,cl}. Deseja-se determinar o valor
deθ quando um novo par(x,θ) for apresentado ao sistema de classificação. Neste novo par,
apenas os valores dex puderam ser observados. Chama-sex′ ∈ {x1,x2, . . . ,xn} de o vizinho
mais próximo dex se
δ (x′,x) = min δ (xi ,x) i = 1,2, ...,n (2.1)
ondeδ (xk,xj ) mede a similaridade entre dois exemplos quaisquer e é minimizada quanto mais
semelhantes eles forem. Atribui-se à classeθ do exemplo desconhecido(x,θ) o valor deθ ′ do
par (x′,θ ′). Caso vários exemplos estejam à mesma distância do novo exemplo a classificar,
atribui-se a classe da maioria de seus vizinhos aθ .
Uma extensão natural do classificador do vizinho mais próximo é considerar osk vizinhos
mais próximos do exemplo desconhecido. Esta variação, também chamada dekNN, aparen-
temente faz uso mais adequado dos dados do problema, decidindo por voto qual será a classe
escolhida. Neste caso, é desejável quek seja suficientemente grande, a fim de minimizar a pro-
babilidade de que poucos exemplos com classificação incorreta determinem a classe de outros,
mas é também desejável quek seja o menor possível, a fim de evitar que exemplos de classes
distintas se misturem na regra de decisão.
A principal vantagem do algoritmo é a simplicidade, dado quenão é necessária uma etapa
de treinamento. Breiman et al. (1984, p. 16) citam como seus principais pontos fracos:
1. A heurística é sensível à escolha da métrica de similaridade e, normalmente, não há uma
alternativa melhor que as demais em todas as situações.
2. A forma ingênua de implementação da heurística, que armazena todos os exemplos co-
nhecidos e busca exaustivamente pelo vizinho mais próximo,não é computacionalmente
interessante se a base de casos for numerosa.
3. Não há uma maneira satisfatória para tratamento de informações categóricas (simbóli-
cas) e a heurística é altamente sensível a valores ausentes,exemplos ruidosos, atributos
irrelevantes etc.
4. A heurística não gera informações extras (e possivelmente relevantes) a partir dos dados.
18
As próximas seções apresentam algumas medidas de similaridade alternativas, que têm sido
utilizadas por serem, supostamente, mais adequadas a problemas com dados temporais. A sub-
seção 2.2.6 fala, brevemente, sobre formas mais eficientes do algoritmo, que são dependentes
da escolha da medida. As fraquezas relacionadas ao tipo dos dados (simbólicos, ruidosos etc.)
não serão discutidos neste trabalho. A geração de informações adicionais sobre os dados é uma
qualidade normalmente atribuída às árvores de decisão, tema do próximo capítulo.
2.2 Medidas de similaridade
Nesta seção são apresentadas as métricas mais comuns para mensuração da similaridade
entre os exemplos no algoritmo do vizinho mais próximo, quando os dados são temporais. No
restante deste capítulo, será assumido que o vetor de características é formado simplesmente por
um único atributo e que este é uma série temporal de tamanhod (problema unidimensional).
2.2.1 Distância Euclidiana
A escolha inicial, e também a mais freqüente, para comparação de duas séries temporais, é
considerar que elas são vetores em um espaço comd dimensões e calcular a distância Euclidiana
entre estes. Dadas duas seqüênciasy ez quaisquer, Devijver & Kittler (1982, p. 232) definem a
distância como
δ (y,z) = [(y−z)t(y−z)]1/2 =
[ d
∑i=1
(yi−zi)2]1/2
. (2.2)
Há várias limitações associadas a esta medida para comparação de séries temporais. Agrawal
et al. (1995) dizem que a distância é muito sensível a ruídos,a pequenas variações de fase entre
as seqüências e a translações e escalamentos horizontais. Como ilustração, a Figura 2.1 mos-
tra um exemplo extremo em que duas seqüências possuem exatamente os mesmos contornos,
porém com uma pequena defasagem no eixo do tempo. Na figura, a distância Euclidiana entre
estas duas instâncias é maior do que a distância Euclidiana delas em relação a linha reta pon-
tilhada, que representa o valor médio das séries. Se este fosse o caso em um problema real, o
algoritmoNN escolheria a linha pontilhada como vizinho mais próximo dasduas seqüências.
No caso das limitações associadas às diferenças de escala e translações verticais, uma solu-
ção amplamente aceita é normalizar todas as seqüências antes do cálculo da similaridade. Cada
série é normalizada independentemente das demais e, geralmente, se usa a normalização linear
para um intervalo fixo ou a normalização que converte a média ea variância da série para zero
19
Tempo0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
0
1
2
3
4
5
6
Figura 2.1: Cálculo da distância Euclidiana. Uma pequena variação de fase pode ocasionardiferença significativa na medida.
e um, respectivamente. Na segunda alternativa, cada valor ésubstituído através da fórmula
y′i =(yi−y)
σy, (2.3)
ondey é a média eσy é o desvio padrão dos valores que compõem a seqüência. O segundo tipo
de normalização é mais apropriado por ser menos sensível a ruídos (HAN; KAMBER, 2001,
p. 115).
Se a média e a dispersão das séries contiverem padrões relevantes para a classificação, estas
informações podem ser adicionadas aos dados como novas características estáticas. Os algorit-
mos de classificação experimentados neste trabalho, porém,classificam sempre comparando os
exemplos entre si e não considerarão nenhuma característica estática. Em todos os casos expe-
rimentados, os dados foram normalizados usando a Equação 2.3 e a média e o desvio padrão
foram descartados.
As limitações associadas a ruídos e a variações de fase podemser contornadas substituindo
a distância Euclidiana por alguma outra métrica mais sofisticada - nas próximas seções algumas
destas métricas são descritas.
Por fim, sobre a distância Euclidiana, ainda é interessante notar que, exceto pela forma de
normalização das séries, que no caso de atributos não temporais é realizada considerando os
valores de todos os exemplos (no caso das séries cada exemploé normalizado separadamente),
a forma de cálculo da similaridade produzirá o mesmo resultado que seria obtido caso cada
amostra da variável temporal fosse considerada uma característica não temporal. Assim, qual-
quer outra medida já usualmente empregada com o algoritmoNN pode substituir a Euclidiana.
Por exemplo, Devijver & Kittler (1982) apresentam algumas medidas de similaridade alternati-
vas:Manhattan, Chebychev, quadrática etc. Nenhuma delas, porém, parece possuir formulação
mais apropriada a dados temporais. Nos experimentos do Capítulo 4 a distânciaManhattan,
20
definida por
δ (y,z) =
[ d
∑i=1|yi−zi |
]
, (2.4)
também foi considerada. A expectativa é que o classificador com esta medida talvez seja me-
lhor do que o Euclidiano em alguns casos, mas que não será possível dizer que há diferença
significante entre eles.
2.2.2 Correlação linear
No contexto de casamento de padrões, uma métrica utilizada com freqüência como medida
de similaridade é a correlação linear. Theodoridis & Koutroumbas (2006) citam, como exem-
plos de aplicação, problemas em que se deseja encontrar um padrão preestabelecido em um
conjunto de dados que pode contê-lo, por exemplo, um objeto em uma imagem ou um trecho
de uma série temporal (subseqüência) na série completa.
O coeficiente de correlação é uma medida estatística que determina a relação linear entre
duas variáveis aleatórias. É definido como
ρy,z =σyz
σyσz=
d
∑i=1
(yi−y)(zi−z)
[ d
∑i=1
(yi−y)2d
∑i=1
(zi−z)2]1/2
. (2.5)
O coeficiente de correlação possui valor no intervalo[−1,1], sendo que os extremos impli-
cam relação linear perfeita (no sentido positivo ou negativo) e zero implica que não há relação
linear entre as variáveis.
É importante observar que o vizinho mais próximo de um exemplo qualquer, determinado
pelo coeficiente de correlação, é o mesmo que o determinado pela distância Euclidiana, se as
séries estiverem normalizadas de acordo com a Equação 2.3. Neste caso, de acordo com a
Equação 2.5,ρy,z = ∑di=1yizi, porqueσy = σz = 1 e y = z = 0. Já a distância Euclidiana (ao
quadrado) entre as séries será
δ 2(y,z) =d
∑i=1
(yi−zi)2 (2.6)
δ 2(y,z) =d
∑i=1
(yi−y)2−2d
∑i=1
yizi +d
∑i=1
(zi−z)2 (2.7)
δ 2(y,z) = 2−2d
∑i=1
yizi (2.8)
21
ou seja, o valor das duas métricas diferem apenas por soma e multiplicação de constantes e
pela função de raiz quadrada, que não interferem na ordem dosvizinhos dos exemplos. Em
problemas com dados já previamente normalizados, como os apresentados no Capítulo 4, a
classificação com estas medidas é idêntica.
Por fim, a medida de correlação, como descrita acima, considera boa apenas a correlação
positiva. Considerar boa também a correlação negativa, fazendo com que a métrica seja igual
ao valor absoluto da Equação 2.5, é uma opção que pode ser útilse for de interesse considerar
iguais os exemplos simétricos em relação ao eixo temporal. Neste caso, a métrica não será mais
equivalente à distância Euclidiana, evidentemente.
2.2.3 Distância de Hamming
A distância de Hamming, introduzida por Hamming (1950), é definida como o número de
coordenadas nas quais dois vetores diferem. A distância é normalmente calculada quando as
seqüências possuem um alfabeto finito e é especialmente útilcomo uma forma de determinação
da similaridade entre cadeias de caracteres (strings).
A distância de Hamming entre os vetores de caracteresy ez é calculada por
δ (y,z) =d
∑i=1
t(yi,zi), (2.9)
ondet(yi,zi) = 1, seyi 6= zi e t(yi,zi) = 0, caso contrário.
Para aplicação da distância de Hamming como medida de similaridade, as séries temporais
devem passar por duas tarefas de pré-processamento: normalização e discretização. O pro-
cesso de normalização é o mesmo já descrito na seção 2.2.1. Para discretização, deve-se definir
um número fixo de símbolos válidos (alfabeto) e converter cada valor da série para um destes
símbolos. Normalmente, criam-se intervalos de larguras iguais ou intervalos que contenham
a mesma quantidade de pontos (freqüências iguais). A primeira forma é considerada inferior
por dividir os pontos da série de maneira muito desigual, especialmente se os dados contiverem
ruídos (HAN; KAMBER, 2001, p.131).
Caso seja possível assumir que a distribuição dos pontos dasséries siga uma distribuição
especial (por exemplo a Normal), Lin et al. (2003) utilizam uma forma de discretização que tem
a propriedade adicional, computacionalmente bastante desejável, de varrer cada seqüência ape-
nas uma vez. Para tal, considerando que a série foi normalizada, basta recorrer a uma tabela de
probabilidades para determinação dos pontos de cortes que definem os intervalos. Por exemplo,
22
a Tabela 2.1 lista os limites para criação de 5 intervalos eqüiprováveis, assumindo a Distribuição
Normal Padrão. Caso se queira discretizar as séries em 5 intervalos, basta substituir cada valor
numérico pelo caractere associado ao intervalo que o contém.
Alfabeto a b c d eLimites (−∞,−0.84] (−0.84,−0.25] (−0.25,0.26] (0.26,0.85] (0.85,∞)
Tabela 2.1: Limites para divisão da Distribuição Normal Padrão em cinco intervalos eqüiprová-veis.
Em relação à distância Euclidiana, a combinação da discretização das séries e do cálculo
da distância de Hamming só é vantajosa pelo processo de discretização, que pode reduzir o
ruído ao remover as variações abruptas (altas freqüências)das séries. O processo de discretiza-
ção, porém, trata de maneira insatisfatória pontos que estejam muito próximos, mas que foram
discretizados como símbolos diferentes devido à posição dos limites dos intervalos. No caso
da distância de Hamming, estes pontos aumentam o valor da distância, quando na prática a
diferença real entre eles pode ser muito menor do que a largura dos intervalos.
Uma possível alternativa, implementada por Bozkaya, Yazdani & Özsoyoglu (1997) em
conjunto com a distância de edição (apresentada na próxima seção), é considerar que os pontos
são iguais se a distância entre eles for menor do que um limiteδ . Tal variação parece fazer uso
mais apropriado dos valores numéricos sem sacrificar a desejável característica de redução do
ruído. O valor deδ , neste caso, deve ser ajustado e influenciará decisivamenteno valor final da
métrica (e possivelmente na precisão da classificação). Em todos os experimentos apresentados
nos próximos capítulos, esta foi a forma de discretização escolhida.
2.2.4 Distância de edição
A distância de edição, introduzida por Levenshtein (1966) epor isto também chamada de
distância de Levenshtein, é definida como a quantidade mínima de operações necessárias para
transformar uma cadeia de caracteres em outra qualquer. As operações permitidas para tal são
a substituição, a adição e a remoção de caracteres.
Assim como no caso da distância de Hamming, para aplicação dadistância de edição na
comparação de séries temporais numéricas, é preciso que estas sejam normalizadas e discreti-
zadas para um alfabeto finito de símbolos.
A distância de edição entre dois vetores de caracteresy e z de tamanhod pode ser en-
contrada através de programação dinâmica, a partir da relação de recorrência apresentada, por
exemplo, em Gusfield (1997, p.218). A definição é feita com base na funçãoD(i, j), que re-
23
presenta o menor número de operações que transformam os primeiros i caracteres dey nos
primeiros j caracteres dez. Os casos bases da relação são definidos como
D(i,0) = i (2.10)
D(0, j) = j. (2.11)
Intuitivamente, o primeiro caso significa que para transformar i caracteres dey em zero
caracteres dez são necessáriasi operações de exclusão. De forma semelhante, para transformar
zero caracteres dey em j caracteres dez são necessáriasj operações de inclusão. Parai > 0 e
j > 0, a distância é definida como
D(i, j) = min
D(i, j−1)+1
D(i−1, j)+1
D(i−1, j−1)+ t(i, j)
(2.12)
ondet(i, j) = 0, seyi = zj e t(i, j) = 1, caso contrário. Neste caso, o número de operações será
o mínimo entre três opções:
• Transformari caracteres dey em j−1 caracteres dez usando a menor quantidade possível
de operações e então incluirzj emy.
• Transformari−1 caracteres dey em j caracteres dez usando a menor quantidade possível
de operações e então excluiryi .
• Transformari− 1 caracteres dey em j −1 caracteres dez usando a menor quantidade
possível de operações e então substituiryi porzj se eles forem diferentes.
A prova de queD(i, j) realmente calcula a menor quantidade de operações necessárias para
executar a transformação pode ser encontrada em Gusfield (1997, p.218-219) e não será aqui
transcrita. Como se deseja computar a distância de edição das seqüênciasy e z completas, a
medida de similaridade será
δ (y,z) = D(d,d). (2.13)
A implementação ingênua (recursiva) da relação acima produz uma árvore com número
de nós exponencial em relação a dimensãod dos vetores. Porém, usando a forma tradicional
de computação tabular da programação dinâmica, pode-se encontrar a distância de edição em
O(d2) operações. Para tal, usa-se uma matriz de dimensõesd+1, que é preenchida e avaliada
de acordo com o Algoritmo 1.
24
Algoritmo 1 Computa a distância de edição entre dois vetores de caracteresy ezEntrada: M , uma matriz quadrada com dimensõesd+1;
y ez, as séries temporais.Saída: distância de edição entrey e z
1: para i = 0 atéd faça2: mi,0← i3: m0,i ← i4: fim para5: para i = 1 atéd faça6: para j = 1 atéd faça7: seyi = zj então8: t← 09: senão
10: t← 111: fim se12: mi, j ←min(mi, j−1+1,mi−1, j +1,mi−1, j−1+ t)13: fim para14: fim para15: retorne md,d
Em relação à distância Euclidiana, a estratégia de discretização das séries e cálculo da dis-
tância de edição possui algumas vantagens relevantes. Em primeiro lugar, assim como no caso
da distância de Hamming, o processo de discretização diminui o efeito de variações abruptas e
pode reduzir a influência de ruídos. Se a forma de discretização de Bozkaya, Yazdani & Öz-
soyoglu (1997) for utilizada, a condição da linha 7 do Algoritmo 1 é alterada para|yi−zj |< δe o algoritmo passa a receber séries apenas normalizadas para o cálculo.
Ainda em relação à distância Euclidiana, as operações de inserção e exclusão realizadas
durante o cálculo da distância de edição corrigem variaçõesde fase entre as seqüências. Além
de casos onde o desalinhamento de fase ocorre nas séries completas, como o ilustrado na Figura
2.1, a distância de edição corrige variações locais no eixo do tempo, permitindo que séries com
pequenas distorções temporais transitórias sejam alinhadas e tenham menor valor de distância
entre si. Por exemplo, a Figura 2.2 mostra duas seqüências com distorções locais no eixo do
tempo.
Usando o método de discretização em cinco intervalos, descrito na seção 2.2.3, a partir
destas séries seriam geradas as seqüências da Figura 2.3. Como ilustração, as duas seqüências
estão alinhadas com traços verticais, que marcam os caracteres que coincidiriam durante o
cálculo da distância, e com traços horizontais, que marcam os pontos onde ocorreriam inserções
ou exclusões de caracteres. A distância de edição neste exemplo é 6. Casos extremos como os
da Figura 2.1 são menos prováveis nesta situação.
25
Tempo0 5 10 15 20 25 30 35 40 45 50
-2
-1
0
1
2
Figura 2.2: Duas seqüências com distorções locais no eixo dotempo. Por volta do instantet = 20 há uma inversão no atraso entre as séries.-eeed bb de- aaaabddd dd bb deeedbaaab baaabdeeed-bb|||||||||| |||||| | |||||||||||||||||||||||||||| || eeed bb ded aaaab--d-dd bb deeedbaaab baaabdeeedbbb
Figura 2.3: Uma representação discreta das séries e o alinhamento produzido.
Diversas variações da distância de edição podem ser encontradas na literatura. As mais
comuns são geradas a partir da introdução de custos para realização de cada operação. Gusfield
(1997, p.224) apresenta a seguinte recorrência como forma geral da distância de edição com
pesos nas operações
D(i,0) = pd× i (2.14)
D(0, j) = pd× j (2.15)
D(i, j) = min
D(i, j−1)+ pd
D(i−1, j)+ pd
D(i−1, j−1)+ t(i, j)
(2.16)
ondet(i, j) = pc, seyi = zj e t(i, j) = ps, caso contrário. Nesta formalização, as operações
de inclusão e exclusão de caracteres são simétricas e possuem peso igual apd, a operação de
substituição de caracteres possui pesops e o casamento de caracteres possui pesopc. Na versão
da distância proposta por Levenshteinpc = 0 e ps = pd = 1.
A partir desta formalização, é possível deduzir que a distância de Hamming é um caso
especial da distância de edição, no qual a operação de substituição de caracteres possui custo
unitário, as operações de inserção e exclusão de caracterespossuem custo infinito e a operação
de casamento de caracteres possui custo zero.
Outra variação muito popular é o algoritmo que calcula a maior subseqüência comum (LCSS
- Longest common subsequence). Neste caso, deseja-se maximizar o total de concordâncias
26
entre as duas seqüências. ALCSSé calculada de maneira semelhante à distância de edição
através da seguinte recorrência
L (i,0) = L (0, j) = 0 (2.17)
L (i, j) =
L (i−1, j−1)+1 seyi = zi
L (i−1, j) seL (i−1, j)≥L (i, j−1)
L (i, j−1) caso contrário
(2.18)
Porque se deseja uma métrica para minimização, a distância entre duas seqüências será
δ (y,z) = d−L (d,d) (2.19)
Apesar da formulação um pouco diferente, quando computado entre duas seqüências, o va-
lor da maior subseqüência comum também pode ser obtido a partir da distância de edição com
pesos nas operações. Para tal, basta configurar a formulaçãogeral de maneira que a operação de
substituição de caracteres possua custo infinito, as operações de inserção e exclusão de carac-
teres possuam custo unitário e a operação de casamento de caracteres possua custo zero. Após
calcular a distância de edição com esta configuração de pesos, o valor daLCSSpode ser obtido
através da relação a seguir, cuja prova é apresentada, por exemplo, por Bozkaya, Yazdani &
Özsoyoglu (1997).
D(d,d) = 2[d−L (d,d)] (2.20)
2.2.5 DTW - Dynamic time warping
No contexto de reconhecimento de padrões, umas das primeiras aplicações que necessitou
de técnicas que tratassem o casamento aproximado de séries temporais foi o reconhecimento
de palavras faladas. Sakoe & Chiba (1978) são citados como osprimeiros autores a terem
utilizado uma solução baseada em alinhamento de séries e programação dinâmica neste tipo de
aplicação. A medida de similaridade, conhecida comoDTW (Dynamic time warping), procura
remover distorções locais entre as séries antes de calculara distância entre elas. Esta última
característica é a principal diferença entre a distância deedição eDTW: enquanto a primeira,
de certa forma, conta os pontos que não se equivalem após alinhar as seqüências da melhor
maneira possível, o algoritmoDTW calcula a distância entre as seqüências (usando os valores
numéricos originais) após também alinhá-las da melhor maneira possível. No algoritmoDTW,
as operações de inserção e exclusão de caracteres realizadas pela distância de edição podem ser
interpretadas como alongamentos realizados nas séries.
27
A forma de cálculo da similaridade pelo algoritmoDTW é definida através da seguinte
recorrência
DTW(i, j) = γ(yi ,zj)+min
DTW(i, j−1)
DTW(i−1, j)
DTW(i−1, j−1)
(2.21)
ondeDTW(i, j) é uma função que calcula a similaridade entre osi primeiros pontos dey e os
j primeiros pontos dez após alinhá-los eγ(yi ,zj) é uma função que computa a distância entre
dois pontos (normalmente, usa-se a distância Euclidiana).
Sakoe & Chiba (1978) descrevem ainda algumas possíveis melhorias a serem realizadas no
algoritmo com o objetivo de evitar que os alongamentos produzam distorções exageradas entre
as séries. Em primeiro lugar, deseja-se que as distorções diminuam a distância total, através da
eliminação das diferenças de fase. Porém, as séries alinhadas serão maiores que as originais.
Uma forma mais justa de avaliar a similaridade é fazer uma ponderação da distância em relação
ao tamanho das seqüências. Desta forma, seria escolhido o alinhamento que produzisse a menor
distância média por ponto e não a menor distância total. Embora aparentemente benéfica, tal al-
teração favorece que grandes diferenças de fase sejam desconsideradas pelo algoritmo, situação
não desejada em problemas reais.
A segunda melhoria visa exatamente restringir a maior diferença de fase (local) que pode
ser corrigida pelo algoritmo. Tal melhoria é obtida impondouma restrição adicional ao método
de cálculo, para que apenas um número máximo de distorções emuma direção seja permitido.
Este valor máximo de operações permitidas é chamado de janela de ajuste. O Algoritmo 2
descreve os passos para o cálculo da distância com esta nova restrição.
O efeito da janela de ajuste pode ser melhor visualizado através da matriz de cálculo usada
para computar a distância. Considere a Tabela 2.2, que representa a matrizM do Algoritmo
2. As linhas da matriz representam os pontos da sériey e as colunas representam os pontos da
sériez. Cada célula(i, j) contém a distância entreyi e zj . O algoritmoDTW busca o caminho
com a menor distância total para chegar ao ponto(d,d), a partir do ponto(1,1). A partir de
um ponto qualquer, o algoritmo pode seguir em três direções,sendo que um passo na diagonal
indica que os pontos estão alinhados, um passo a baixo indicaque a sériez foi alongada e um
passo à direita indica que a sériey foi alongada. A restrição da janela de ajuste força que o total
de alongamentos em uma direção nunca seja maior que uma constante (r). Neste caso, apenas
uma parte da matriz é avaliada e nas células das fronteiras dajanela algumas direções não são
mais permitidas. Na Tabela 2.2, apenas as células que seriamavaliadas estão preenchidas com
a indicação dos caminhos possíveis.
28
Algoritmo 2 Computa a distância entre duas séries temporaisy e z usando o algoritmo DTWcom janela de ajuste.Entrada: M , uma matriz quadrada com dimensõesd+1;
r, o tamanho da janela de ajuste;y ez, as séries temporais.
Saída: a distância entre as sériesy e z alinhadas1: mi, j ← ∞ ∀[(0≤ i ≤ d)∧ (0≤ j ≤ d)]2: m0,0← 0 // Inicialização da matriz3: para i = 1 atéd faça4: se(i− r) > 0 então5: j← i− r6: senão7: j← 18: fim se9: repita
10: mi, j ← γ(yi ,zj)+min(mi, j−1,mi−1, j ,mi−1, j−1)11: j← j +112: enquanto [( j ≤ d)∧ ( j < i + r)]13: fim para14: retorne md,d
Mi, j z1 z2 z3 z4 . . . zd−3 zd−2 zd−1 zd
y1→↓ց
→↓ց ↓ց
y2→↓ց
→↓ց
→↓ց ↓ց
y3→ց
→↓ց
→↓ց
→↓ց . . .
y4→ց
→↓ց
→↓ց . . . . . .
. . . . . . . . . . . . . . . . . .yd−3 . . . . . . →
↓ց→↓ց ↓ց
yd−2 . . . →↓ց
→↓ց
→↓ց ↓
yd−1→ց
→↓ց
→↓ց ↓
yd → → Md,d
Tabela 2.2: ComputandoDTW com janela de ajuster = 2. Neste caso, o caminho na tabela decálculo não pode se afastar mais de 2 unidades da diagonal.
Alguns trabalhos já têm analisado a variação do desempenho do classificador do vizinho
mais próximo comDTW em função do tamanho da janela de ajuste. Xi et al. (2006) mostram
que a influência do parâmetro na precisão do classificador é relevante e que as melhores con-
figurações são obtidas com janelas relativamente pequenas.Nesta situação, a normalização da
distância de acordo com o tamanho das séries alongadas não causa diferença significativa. A
restrição de janela também pode ser aplicada às medidas da seção anterior (distância de edição
e LCSS). As três medidas, portanto, possuem um parâmetro em comum,que deve ser ajustado,
com provável influência no resultado da classificação. Um detalhe interessante é que janelas
menores aceleram o cálculo das medidas. O caso extremo, com janela de tamanho zero, im-
29
plica em tempo de cálculo linear, e não mais quadrático.
Uma característica importante do algoritmoDTW é que ele calculará exatamente a distân-
cia Euclidiana, caso nenhum alongamento aconteça (ou seja,se as séries já estiverem completa-
mente em fase). Assim como no caso da distância Euclidiana, énecessário normalizar as séries
para remoção de diferenças de escala e deslocamentos verticais.
Em comparação à distância de edição, a medida dispensa o passo de discretização. Como
conseqüência, o algoritmo parece mais apropriado a dados numéricos, embora, teoricamente,
ele seja mais vulnerável a influências de ruídos. Na prática,conforme mostrado no Capítulo
4, ambos geram bons resultados, superiores ao do algoritmo do vizinho mais próximo com a
distância Euclidiana.
2.2.6 Métricas baseadas em transformações
Uma estratégia para determinar a similaridade entre seqüências é realizar uma transforma-
ção dos dados originais para um novo domínio e então calculara semelhança entre elas de
acordo com esta nova representação. Por exemplo, o método dediscretização e utilização de
medidas de casamento aproximado destringssegue essa estratégia.
Antunes & Oliveira (2001) e Savary (2002) citam trabalhos que utilizam as transformadas
de Fourier e Waveletspara representação das seqüências. A principal referênciade ambos é
o trabalho de Agrawal, Faloutsos & Swami (1993), que trata deuma estratégia para recupe-
ração eficiente de seqüências em bancos de dados, baseada em propriedades daTransformada
Discreta de Fourier.
A Transformada Discreta de Fourierde um sinalx de tamanhod é a seqüênciaX de núme-
ros complexos, também de tamanhod, definida por
Xk =1√d
d−1
∑t=0
xte−i2πtk
d k = 0,1, . . . ,d−1 (2.22)
ondei é a unidade imaginária (i =√−1). Comox é um sinal real,X0 será um número real
com valor proporcional à média dex (X0 = 0, no caso de séries normalizadas como nas seções
anteriores).
A principal observação de Agrawal, Faloutsos & Swami (1993)é que o Teorema deParse-
val e a característica linear da transformação garantem que, dadas duas sériesx ey quaisquer,
d−1
∑t=0|xt−yt |2 =
d−1
∑k=0
|Xk−Yk|2. (2.23)
30
Em palavras, a distância Euclidiana dos coeficientes obtidos pela transformação é a mesma
distância das séries originais. Tal observação permite queos coeficientes sejam usados na cons-
trução de estruturas de dados para recuperação eficiente do vizinho mais próximo.
A consulta pelo vizinho mais próximo, implementada da formamais ingênua, exige que
cada um dos exemplos conhecidos da base de treinamento seja comparado ao exemplo des-
conhecido para determinação do vizinho. Este procedimentopode ser acelerado por meio de
índices, através de alguma estrutura de dados de particionamento do espaço de características,
comok-d-tree(BENTLEY, 1975; FREIDMAN; BENTLEY; FINKEL, 1977),r-tree (GUTT-
MAN, 1984), entre outras. Estes índices podem ser usados em problemas com dados de (prati-
camente) qualquer tipo, mas têm uma limitação conhecida de não funcionarem bem com muitas
dimensões (características) - por exemplo, Bentley (1975)sugere que ak-d-treesó é útil se o
número de casos a indexar for maior do que 22m, ondem é o total de características da base de
dados.
Em problemas com dados temporais, se cada ponto da série for considerado uma dimensão,
as estruturas de indexação não proporcionarão ganhos de desempenho. Para resolver esta ques-
tão, em problemas com séries de variação suave, Agrawal, Faloutsos & Swami (1993) observam
que aTransformada de Fourierconcentra a maior parte do sinal (energia) em alguns poucos co-
eficientes de baixa freqüência. Utilizando apenas alguns coeficientes para construção do índice,
é possível recuperar de maneira eficiente séries temporais longas. As consultas ao índice, po-
rém, não retornam mais o mesmo conjunto de exemplos retornado pela busca exaustiva, uma
vez que parte da informação foi descartada. Agrawal, Faloutsos & Swami (1993) mostram que
o resultado das consultas ao índice contém o resultado da busca exaustiva. Assim, as consultas
são realizadas em duas etapa: na primeira, usa-se o índice para recuperar uma aproximação do
resultado final; na segunda, o resultado aproximado é filtrado no domínio original.
Embora o procedimento original tenha sido desenhado para recuperação de exemplos a
partir da distância Euclidiana, algumas extensões existempara indexação de outras medidas
de similaridade. Por exemplo, Keogh & Ratanamahatana (2005) apresentam uma aproximação
que permite indexarDTW usando as mesmas estruturas de dados. Algumas outras estruturas,
comometrics trees(UHLMANN, 1991), podem ser usadas para indexar medidas que respeitem
as propriedades de um espaço métrico (inigualdade triangular, simetria etc.), como a distância
de edição.
Todos estes métodos são exatos, ou seja, produzirão classificadores idênticos aos obtidos
originalmente. A utilidade deles, portanto, limita-se a melhorar o tempo dos algoritmos e não
a precisão da classificação. ATransformada de Fourier, neste caso, serve apenas como uma
31
ferramenta para compactar a informação existente nos dados, e não para formular uma nova
medida de similaridade.
É possível, porém, usar as propriedades daTransformada de Fourierpara formular novas
métricas de comparação. Por exemplo, ao representar os coeficientes (complexos) na forma
polar, translações do eixo do tempo nos dados originais não alteram o módulo dos valores no
domínio transformado. Esta propriedade é usada com freqüência na extração de características
estáticas (ou invariantes a translações) de séries temporais.
Os experimentos do Capítulo 4, porém, se limitarão a avaliaro desempenho da classificação
usando apenas os primeiros coeficientes da transformada. Agindo assim, somente a informação
de baixa freqüência (que define as variações suaves das séries) é considerada. Um possível
ganho deste tratamento é desprezar os ruídos de alta freqüência, que distorcem o formato das
seqüências. Nesta abordagem, o número de coeficientes a considerar durante o cálculo da dis-
tância é um parâmetro da métrica que deve ser ajustado, com provável influência na precisão
da classificação. Ao permitir que o número de coeficientes da medida varie, a nova métrica po-
derá ser ajustada para que todos sejam utilizados, situaçãoem que a classificação será a mesma
obtida com a distância Euclidiana.
Agrawal, Faloutsos & Swami (1993) observam ainda que qualquer transformação que pre-
serve a distância Euclidiana pode substituir aTransformada de Fourierna tarefa de compactar
as séries para indexação. Dependendo do problema, outras transformadas podem compactar
mais informação em menos coeficientes, acelerando ainda mais a busca pelo vizinho mais pró-
ximo. A família deTransformadas Discretas de Wavelets(DAUBECHIES, 1992) são as mais
utilizadas neste contexto (por exemplo, por Struzik & Siebes (1999), Chan & Fu (1999)).
A Transformada Discreta de Waveletde um sinalx de tamanhod (neste caso,d deve ser
potência de 2) é a seqüênciac de coeficientes obtida por
c j ,k =1d
d−1
∑t=0
xtψ j ,k(t). (2.24)
onde a Wavelet Mãe, chamada deψ(t), será transformada por escalamentos e translações pela
relação
ψ j ,k(t) = 2 j/2ψ(2 j t−k) (2.25)
com j determinando o fator de escala diático (produto por uma potência de 2),k determinando
a translação ej = 0, . . . log2(d)−1 e, para cada resoluçãoj, k = 0. . .2 j −1.
A Wavelet de Haaré o exemplo mais elementar de base wavelet. A Wavelet Mãe desta
32
família é definida como:
ψHaar(t) =
1, 0≤ t < 0.5
−1, 0.5≤ t < 1
0, caso contrário
(2.26)
No caso da utilização daTransformada Discreta de Waveletpara compactação das séries,
Wu, Agrawal & Abbadi (2000) mostram que o desempenho do índice produzido é semelhante
ao obtido com aTransformada de Fourier, com o desempenho variando de acordo com o tipo
do dado a ser indexado.
Assim como no caso daTransformada de Fourier, asTransformadas Waveletspodem ser
usadas para criação de medidas de similaridade. Nos experimentos do Capítulo 4, foi explo-
rado o aspecto da análise em múltiplas resoluções da transformada. Considerando apenas os
coeficientes das primeiras resoluções (parâmetroj), pode-se observar o sinal de acordo com um
nível de detalhe diferenciado. Assim como no caso daTransformadas de Fourier, ao utilizar
somente as primeiras resoluções, apenas a parte suave da série é considerada e os detalhes (altas
freqüências) são desprezados. O número de resoluções é um parâmetro da métrica que deve ser
ajustado. Caso todas as resoluções estejam no cálculo da distância, o valor será o mesmo que
o da distância Euclidiana e o classificador não sofrerá alteração. Espera-se que a métrica seja
mais adequada por remover distorções (ruídos), que alterama forma das seqüências.
2.3 Combinando várias métricas em um mesmo classificador
Dado que existem várias medidas de similaridade disponíveis, uma possível extensão do
algoritmo do vizinho mais próximo é implementar a regra de decisão com base em um conjunto
de medidas. Yao & Ruzzo (2006), em uma aplicação prática diferente, utilizam o algoritmo com
várias medidas de similaridade e realizam uma etapa de treinamento, através de métodos de
regressão, para determinar pesos associados às métricas nocálculo da distância entre exemplos.
Tal abordagem pode ser imediatamente relacionada ao problema de seleção de características,
no qual há um conjunto de atributos, dentre os quais são selecionados alguns para treinamento
do classificador. No problema de seleção de características, pode-se apenas aceitar pesos 0 ou
1, situação em que as características apenas são incluídas ou não no conjunto final, ou ainda
pesos diversos, dando maior importância para as que pareçamser mais relevantes.
Kohavi, Langley & Yun (1997) apresentam um método simples e relativamente eficiente
de seleção de características por distribuição de pesos, que pode ser empregado para o caso
33
de ponderação das métricas. Ao invés de considerar os pesos como valores reais, apenas
um subconjunto de pesos discretos são avaliados. Na implementação de Kohavi, Langley &
Yun (1997), o intervalo[0,1] é divididok em partes iguais, com cada valor discreto separado
por uma constante de divisãod = 1/k. Os valores possíveis para os pesos serão, portanto,
0,1/k,2/k, . . . ,(k−1)/k,1. A busca pela melhor configuração de pesos é feita através deuma
heurística e a qualidade dos pesos é determinada pelo erro médio do algoritmo do vizinho mais
próximo no conjunto de treinamento com cada configuração. O método de busca segue uma
estratégia gulosa para alterar os pesos e persiste na busca até que, em um número consecutivos
de passos, não haja melhoria no erro de classificação.
A forma de distribuição de pesos de Kohavi, Langley & Yun (1997), porém, aceita que
configurações redundantes sejam avaliadas. Suponha que existam apenas duas características
e que os pesos possíveis sejam determinados pord = 0,2. O vizinho mais próximo de um
exemplo considerando pesos 0,2 e 0,4, é o mesmo que o determinado pelos pesos 0,4 e 0,8, por
exemplo.
Para evitar essa redundância, uma nova heurística de distribuição de pesos e busca pela
melhor configuração foi criada. O Algoritmo 3 descreve a heurística, que prevê a soma dos
pesos distribuídos entre as medidas de similaridade sempreigual a 1 e cada métrica recebendo
um valor discreto nos moldes da heurística de Kohavi, Langley & Yun (1997).
No Algoritmo 3, a função que estima o erro de classificação (linha 4) recebe como parâ-
metros o vetor de pesos, o conjunto de métricas e os dados de treinamento. Cada métrica está
relacionada a um peso de acordo com a posição deste no vetor. Aestimativa do desempenho é
feita usando o procedimento de validaçãoleave-one-out, que consiste em realizarn execuções
do algoritmo de classificação, nas quais apenas um dosn exemplos da base de treinamento é
reservado para teste de validação. O erro total será a soma deelementos classificados incorre-
tamente.
A restrição de que a soma dos pesos seja sempre igual a 1 faz comque existam
Ck|M|+k−1 =
(|M|+k−1k
)
(2.27)
combinações possíveis para os pesos, onde|M| é o total de métricas que podem ser combinadas.
Tal relação pode ser provada supondo que existamk unidades de peso (iguais ad) para serem
distribuídas entre|M| compartimentos e que alguns destes podem ficar vazios. Há, portanto,k
símbolos com|M| −1 separadores, que determinam quais dos símbolos pertencema cada um
dos compartimentos. Como os símbolos e os separadores não são distintos, o total de maneiras
de organizá-los é determinado pela equação 2.27.
34
Algoritmo 3 Faz busca pela configuração de pesos que maximiza o desempenho do algoritmodo vizinho mais próximo com diversas métricas.Entrada: S, o conjunto de instâncias de treinamento;
M, o conjunto de métricas de similaridade;d, o grão mínimo dos pesos a distribuir.
Saída: P, vetor de tamanhomcontendo a configuração de pesos melhor avaliada.1: me← ∞ // Menor erro obtido.2: Q0← 1 eQ1...m−1← 0 // Inicializa o vetor de pesos para avaliação.3: repita4: e← estime_erro(Q,M,S) // Estima o erro da configuração de pesos.5: see< meentão6: AtualizeP eme7: fim se8: i←m−1 // A variável i indicará se ainda há mais configurações a testar.9: repita
10: i← i−111: enquanto [(i ≥ 0)∧ (Qi = 0)]12: sei ≥ 0 então // Ainda há configuração a testar. Gera a próxima configuração.13: tmp←Qm−114: Qm−1← 015: Qi+1← tmp+d16: Qi ←Qi−d17: fim se18: enquanto [(me> 0.0)∧ (i ≥ 0)]19: retorne P
O Algoritmo 3 enumera todas asCk|M|+k−1 combinações possíveis de pesos, seguindo uma
ordem semelhante à lexicográfica. Por exemplo, suponha que existam apenas 3 métricas e que
k = 2. Neste caso, há 6 formas possíveis de combinar as métricas,sendo que em 3 apenas uma
métrica terá 100% do peso e nas demais duas métricas terão 50%do peso cada. O Algoritmo 3
enumeraria os pesos deste exemplo de acordo com a ordem da Figura 2.4.1 - 1.0 0.0 0.0 4 - 0.0 1.0 0.02 - 0.5 0.5 0.0 5 - 0.0 0.5 0.53 - 0.5 0.0 0.5 6 - 0.0 0.0 1.0Figura 2.4: Seqüência de geração dos pesos na heurística criada para treinar o algoritmoNNcom várias métricas.
35
3 Árvores de decisão com característicastemporais
Neste capítulo outra técnica de classificação amplamente conhecida, as árvores de decisão,
é apresentada e adaptada a dados temporais. Em relação ao método do vizinho mais próximo,
a classificação por árvores é reconhecida, principalmente,por ser mais flexível a dados hetero-
gêneos, por ser mais rápida durante a fase de consulta e por, em teoria, produzir classificadores
interpretáveis.
A adaptação do algoritmo de construção de árvores apresentada neste capítulo também
é baseada na utilização de métricas de similaridade entre séries temporais. Conforme será
mostrado, o algoritmo permite que características não temporais sejam usadas juntamente com
as séries na construção da árvore e, exceto por considerações de desempenho, os pontos fracos
do método são os mesmos da versão não adaptada.
3.1 Árvores de decisão
Uma árvore de decisão é um classificador formado por testes organizados em uma estrutura
de dados em forma de árvore, na qual cada nó terminal (folha) éassociado a uma classe e cada
nó interno (galho) é associado a um teste que dividirá o universo de um atributo em subconjuntos
disjuntos. A classificação de exemplos desconhecidos é feita percorrendo a árvore a partir da
raiz, avaliando os atributos do exemplo desconhecido de acordo com os testes dos nós internos,
até que uma folha seja atingida. Ao exemplo desconhecido é dada a classificação da folha
encontrada (DUDA; HART; STORK, 2001, p. 394).
A principal característica que fomenta a popularidade das árvores de decisão é a relativa
simplicidade de interpretação do classificador criado. A partir de uma árvore de decisão, pode-
se criar regras que descrevem o problema unindo os nós que levam até as folhas de mesma
classificação em expressões lógicas, através de disjunçõese conjunções. Na prática, as árvores
36
de decisão criadas a partir de problemas reais complexos sãotambém complexas, e as regras
extraídas necessitam de reduções e processamento adicional para interpretação.
Além disso, em comparação a outros algoritmos de classificação mais sofisticados, o trei-
namento de uma árvore de decisão é eficiente e o método não faz nenhuma suposição adicional
sobre os dados do problema. O algoritmo de construção pode lidar tanto com dados contínuos
como discretos, possui adaptações para manipulação de dados com valores ausentes e os testes
dos nós intermediários podem acomodar expressões complexas como, por exemplo, combina-
ções lineares de diversos atributos. Por ser flexível, a inclusão de testes para manipulação de
atributos temporais é simples, conforme apresentado nas próximas seções.
Apesar de muito maleáveis, as árvores de decisão são sabidamente inferiores a outros algo-
ritmos de aprendizado, como as redes neurais artificiais, quando considerada apenas a precisão
do classificador construído. Geurts (2002, p. 5) atribui esta deficiência à alta variância existente
no método de construção da árvore. Ao criar testes que separam os exemplos de treinamento
em conjuntos disjuntos, o método de construção pode prosseguir até que, em cada folha, exis-
tam apenas elementos de mesma classificação. Este método de construção, porém, é instável
em relação aos exemplos do treinamento: pequenas alterações nos exemplos podem levar a
árvores completamente diferentes. Além de decrescer a precisão, tal instabilidade prejudica a
interpretação da árvore, uma vez que não é mais possível confiar plenamente nas regras criadas.
Uma maneira de melhorar a precisão de uma árvore de decisão é simplificar a sua estrutura,
removendo nós que prejudiquem a classificação. Tal método, conhecido como poda, idealmente
tem a sua disposição um conjunto de dados independente da amostra de treinamento - para
estimar o erro de cada sub-árvore após a remoção (ou não) de seus filhos - e a árvore obtida
após o processo será, possivelmente, mais precisa que a original (QUINLAN, 1993, p. 40).
Além da poda, métodos que agregam diversas árvores construídas para o mesmo problema
são comumente usados com resultados mais significativos na melhoria da precisão. Tais mé-
todos, porém, implicam em mais custo computacional e menos clareza na interpretação do
problema.
Nas próximas seções serão apresentados alguns algoritmos para construção de árvores de
decisão. Apesar de existirem diversas variações possíveistanto para construção quanto para
poda ou combinação de árvores, foram implementados apenas alguns dos melhores algoritmos,
de acordo com a avaliação experimental de Geurts (2002). Talrestrição foi imposta porque
o desejado é avaliar somente a adaptação para características temporais do algoritmo e não
variações nas partes comuns dos algoritmos antes e depois daadaptação.
37
3.2 Construção de árvores de decisão
O Algoritmo 4 descreve o método de construção de árvores de decisão usado por Geurts
(2002), que produz somente árvores de decisão binárias. O algoritmo é iniciado com o conjunto
completo de exemplos conhecidos, que é separado em subconjuntos de acordo com uma medida
que qualifica a divisão, até que uma condição de parada seja atingida.
Algoritmo 4 Construção iterativa de uma árvore de decisão binária.Entrada: S= {(x1,θ1), . . . ,(xn,θn)}, o conjunto de instâncias de treinamento.Saída: árvore de decisão a partir deS
1: Crie o nó raizR2: R.ls← S // Conjunto de exemplos do nó raiz3: L←{R} // Lista de nós a explorar4: enquantoL 6= /0 faça5: Selecione e remova um nóN deL6: senao_expandir(N) então7: N.tipo← f olha8: N.θ ← calcule_θ(N)9: senão
10: N.tipo← galho11: Crie o nóN.esquerda12: Crie o nóN.direita13: Divida N.ls entreN.esquerdaeN.direita de acordo com uma função de divisão14: L← L∪N.esquerda∪N.direita15: fim se16: fim enquanto17: retorne R
Duas funções auxiliares do Algoritmo 4 não dependem do tipo dos atributos da base de
dados: a função que verifica se o nó ainda deve ser expandido (linha 6) e a função que atualiza
a classe associada às folhas (linha 8). No primeiro caso, a função permite que a árvore seja
expandida até que todos os elementos das folhas pertençam à mesma classe ou até que todos os
atributos dos exemplos do nó sejam constantes. No segundo caso, a função associa a classe da
maioria dos exemplos à folha em questão.
A função que divide o conjunto de exemplos entre os nós filhos (linha 13) é a que deve
considerar o tipo dos atributos (numérico, simbólico, temporal etc.) durante a construção da
árvore de decisão. A versão original de Geurts (2002, p. 86) está preparada somente para
manipular atributos numéricos e é formada por duas partes principais: uma rotina que gera os
testes para dividir os exemplos e uma rotina que avalia a qualidade da divisão.
A rotina que gera os testes utiliza os exemplos do nó para determinar dois parâmetros: um
atributo de referênciaa e um valor limiarξ . Os exemplosxi são divididos de forma que o
38
primeiro filho conterá os casos em quexia < ξ e o segundo filho os casos em quexia ≥ ξ .
Para determinação dos parâmetros, uma busca exaustiva é feita considerando todos os atribu-
tos e, para cada atributo, todos os valores possíveis dos exemplos. O atributo e o valor que
maximizarem a rotina de avaliação são escolhidos como referência para divisão do nó.
Para avaliar a qualidade da divisão, foi utilizado somente oganho de informação. Quinlan
(1993, p. 22) define o ganho de informaçãoG(S,R) como sendo a redução da entropia das
classes após a divisão dos exemplos do nó. Formalmente, é definido como
G(S,R) = I(S)−k
∑i=1
|Ri||S| × I(Ri) (3.1)
ondeS é o conjunto de instâncias pertencentes ao nó,R = {R1, . . . ,Rk} contém os exemplos
pertencentes a cada filho após aplicação do teste de divisão (k = 2 no Algoritmo 4),|Ri| e |S|são as cardinalidades dos conjuntos eI(T) é a entropia no conjuntoT, definida como
I(T) =−l
∑i=1
Ni
|T| × log2
(
Ni
|T|
)
(3.2)
sendo quel é a quantidade de classes do problema eNi é o número de exemplos da classei no
conjuntoT. É interessante observar que o valor deI(T) é máximo quando a razãoNi/|T|= 1/l
para todas as classesi, e é mínimo quando apenas uma classe está contida emT. Isso faz com
que o ganho de informação seja máximo quando cada conjuntoRi contiver somente elementos
de mesma classificação. Quinlan (1993, p. 23) define ainda ataxa de ganho, que é a razão entre
o ganho de informação e a entropia dos conjuntos divididos. Tal normalização é introduzida
para penalizar as divisões que gerarem muitos conjuntos contendo poucos exemplos - situação
especialmente desinteressante quando o número de filhos forilimitado. Dado que o Algoritmo
4 constrói apenas árvores binárias, a normalização torna-se desnecessária.
3.2.1 Tratamento de atributos temporais
Assim como no caso dos atributos numéricos, a função que divide o conjunto de exemplos a
partir de atributos temporais é também formada por duas rotinas: uma que cria os testes e outra
que avalia a divisão. Como no caso de dados numéricos, o ganhode informação é utilizado
como medida de qualidade. Desta forma, a qualidade da divisão gerada por atributos tempo-
rais pode ser diretamente comparada à gerada por atributos de outro tipo qualquer, e árvores
de decisão podem ser construídas a partir de base de dados mistas sem nenhuma adaptação
adicional.
Yamada et al. (2003) constroem um teste para atributos temporais a partir de um exemplo
39
pertencente a lista de casos do nó a ser dividido, chamado de exemplo padrãoxp. A divisão é
feita com base em uma medida de distância entre duas séries temporaisδ (y,z), um atributo tem-
porala e um valor limiarξ . Um exemploxi é inserido no primeiro filho do nó seδ (xia,xpa) < ξe no segundo, caso contrário.
O Algoritmo 5 ilustra o método de busca pelo exemplo padrãoxp e pelo valor limiarξ em
um atributo temporal. O algoritmo faz busca exaustiva, considerando todos os exemplos como
candidatos a exemplo padrão. O algoritmo deve ser repetido para cada atributo temporal, caso
existam vários na mesma base de dados.
Algoritmo 5 Determina o exemplo padrão e o limiar que maximizam o ganho deinformação,dado um atributo temporal.Entrada: S= {(x1,θ1), . . . ,(xn,θn)}, conjunto de instâncias de treinamento do nó;
a, índice do atributo temporal.Saída: xp, o exemplo padrão;
ξ , o limiar.1: mg←−∞ // Melhor ganho de informação2: md←−∞ // Maior distância no corte3: para todo xj ∈ S faça4: D← /0 // Lista pares (exemplo, distância)5: para todo xk ∈ S faça6: D← D∪ (xk,δ (xja,xka))7: fim para8: OrdeneD usando a distância como chave9: para i = 2 atén faça
10: R1←D[1...(i−1)] eR2←D[i...n]11: g← calcule_ganho(S,R) // R= {R1,R2}12: d← (distancia(D[i])−distancia(D[i−1]))13: se(g > mg)∨ [(g = mg)∧ (d > md)] então14: mg← g, md← d exp← xj15: ξ ← (distancia(D[i])+distancia(D[i−1]))/216: fim se17: fim para18: fim para19: retorne xp e ξ
Caso mais de um teste seja avaliado com o mesmo ganho de informação, o Algoritmo 5
considera melhor o teste que deixar os exemplos mais distantes das fronteiras das regiões dos
filhos do nó. Assim, o desempate é feito a partir da distância entre o exemplo mais distante
do exemplo padrão inserido no primeiro filho e o exemplo mais próximo do exemplo padrão
inserido no segundo filho (linhas 12 e 13). É importante notartambém que o exemplo padrão
não é descartado na divisão, sendo inserido sempre no primeiro filho. Neste caso, o mesmo
exemplo pode ser a referência em mais de um nível da árvore.
40
Em relação à medida de distância do Algoritmo 5, apesar de Yamada et al. (2003) usarem
apenasDTW, qualquer uma das apresentadas no Capítulo 2 pode ser escolhida como métrica
de referência. Os experimentos apresentados no Capítulo 4 mostram que a escolha da métrica
influencia a precisão do classificador em problemas distintos, o que sugere imediatamente que,
ao escolher o atributo e o teste que irá dividir os exemplos emum nó, é importante considerar
várias medidas de similaridade. O Algoritmo 5 pode ser parametrizado para receber também a
métrica de similaridade, e a escolha da melhor métrica é feita diretamente com base no ganho
de informação.
Em relação à complexidade computacional, o Algoritmo 5 é mais ineficiente que o similar
para atributos numéricos. No caso de atributos numéricos, cada valor possível de cada atributo é
considerado um candidato a limiar de corte. Para cada candidato, deve ser computado o ganho
de informação, que é obtido emO(l) (l é o número de classes do problema) se existir uma
tabela com a freqüência de cada classe em cada conjunto da divisão. Tal tabela pode ser criada
em O(n) operações e, para cada candidato, atualizada em tempo constante, se os valores dos
atributos forem ordenados antes da avaliação. Assim, para avaliar n valores candidatos em um
atributo, é necessário ordenar os exemplos (O(n log n)) e, para cada valor, atualizar as tabelas de
freqüências dos nós e calcular o ganho de informação. Assim,supondo que existammatributos
numéricos, gasta-se tempoO(mn log n) + O(mnl) para descobrir o melhor teste em um nó.
Neste caso, como o número de exemplos é geralmente muito maior do que o número de classes,
o tempo do algoritmo é dominado pelo tempo de ordenação dem vetores de tamanhon.
No caso do Algoritmo 5, também será necessário ordenar vetores de tamanhon (um para
cada atributo temporal, se o problema for multidimensional) e calcular o ganho de informação
para cada corte possível. O tempo do algoritmo, porém, é dominado pela formação dos vetores
de distânciasD, que demandaráO(n2 tm) para cada métrica em cada atributo temporal, ondetm
é o tempo para calcular a distância entre duas séries temporais. Supondo que as séries temporais
sejam longas e que várias métricas estejam sendo avaliadas (algumas com complexidade qua-
drática em relação ao tamanho da série temporal), o tempo para determinação do melhor corte
torna-se excessivo e o treinamento com características temporais será bem mais ineficiente que
o treinamento apenas com características numéricas. Estasconsiderações de desempenho, po-
rém, não inviabilizam o algoritmo, visto que as exigências de tempo na etapa de treinamento
são menos rígidas e que o classificador produzido é bastante eficiente no momento da consulta.
41
3.3 Poda e combinação de árvores de decisão
O algoritmo de construção de árvores de decisão apresentadona seção anterior segue o
método tradicional, que divide os exemplos até que cada folha seja pura, ou seja, contenha
apenas elementos de mesma classificação1. Este procedimento, porém, produz classificadores
que, normalmente, não classificam bem conjuntos de dados independentes, devido ao ajuste
excessivo aos dados de treinamento.
Uma maneira de tentar reduzir o ajuste da árvore aos dados de treinamento é, após construí-
la da forma convencional, podar os nós que não contribuirão para classificar dados independen-
tes. Apesar de existirem diversas formas de poda, apenas a heurística apresentada por Quinlan
(1993, p. 40) foi considerada. A heurística constrói a árvore a partir do conjunto completo
de treinamento, sem reservar dados para a etapa de poda, e elimina uma sub-árvore caso uma
métrica, chamadaerro esperado, seja reduzida após a operação.
O erro esperadoé calculado a partir dos limites do intervalo de confiança de uma distri-
buição binomial, dados um valor fixo de confiança desejado, o númeroN de tentativas (total de
elementos pertencentes à sub-árvore) e o númeroE de sucessos (elementos com classificação
incorreta). O método de poda parte das folhas até a raiz, avaliando oerro esperadode cada
sub-árvore antes e depois da poda e eliminando os ramos nos quais houve redução da métrica.
Apesar de melhorar o desempenho da classificação em alguns casos, os métodos de poda
não são os mais apropriados quando o objetivo é exclusivamente melhorar a precisão da árvore
de decisão. Para este fim, métodos que combinem vários classificadores e decidam (normal-
mente) por voto a classe final dos exemplos desconhecidos sãomais recomendados.
Dentre as várias opções possíveis - por exemploboosting(SCHAPIRE, 1990),random
forests(BREIMAN, 2001) etc., apenas dois algoritmos de combinaçãode classificadores foram
considerados na análise experimental: o método original debagging(bootstrap aggregating)
de Breiman (1996), por apresentar bons resultados e ser um dos primeiros propostos para tal
fim; e o algoritmoextra-tree(extremely randomized trees- árvores extremamente aleatórias)
de Geurts, Ernst & Wehenkel (2006), por ser simples, computacionalmente eficiente e produzir
resultados comparáveis aos melhores algoritmos de combinação disponíveis.
O método debaggingprocura reduzir a variância de um algoritmo de classificaçãoinstável2
1É normal, principalmente quando os atributos são simbólicos, que algumas folhas não sejam puras, mas quenão seja possível separar os exemplos, porque todos têm atributos iguais. Neste caso, a folha é associada à classeda maioria dos exemplos.
2O algoritmo do vizinho mais próximo não é instável e, por isto, o seu desempenho de classificação, normal-mente, não é melhorado através da combinação porbagging.
42
criando classificadores distintos a partir de conjuntos diferentes de treinamento e decidindo a
classe dos exemplos desconhecidos através do voto da maioria dos classificadores. Como na
prática, geralmente, não há dados suficientes para criar vários conjuntos aleatórios independen-
tes de treinamento, recorre-se ao processo de amostragem por bootstrap: criam-seT conjuntos
de treinamento selecionando, com reposição,N casos no conjunto de exemplos original. O mé-
todo debaggingusado durante os experimentos apresentados no Capítulo 4 combinam sempre
árvores de decisão construídas de acordo com o algoritmo da seção anterior, sem a etapa de
poda.
Ao contrário do método debagging, que tenta reduzir a variância do algoritmo de classifi-
cação instável modificando o conjunto de treinamento, o algoritmo extra-treebusca o mesmo
objetivo, porém combinando por voto árvores construídas deforma (extremamente) aleatória.
O algoritmoextra-treesegue o mesmo procedimento do Algoritmo 4, distinguindo-seapenas
pelo processo de seleção do atributo e formação do teste que dividirá os exemplos em cada nó
da árvore.
A versão apresentada em Geurts, Ernst & Wehenkel (2006) estápreparada somente para
dados numéricos e escolhe o atributo que formará o teste a partir de um subconjunto de atribu-
tos, selecionado de forma aleatória. Para cada atributo do subconjunto, o limiar que definirá o
corte do teste também é escolhido aleatoriamente. A função que avalia a qualidade dos cortes
é usada apenas para decidir a melhor opção neste subconjunto, evitando que testes comple-
tamente ineficazes sejam criados. Desta forma, o algoritmoextra-tree, assim como a versão
determinística da construção de árvores de decisão, toleradados com algumas características
inúteis ou redundantes.
Como a seleção dos testes de divisão é aleatória, árvores construídas a partir do mesmo
conjunto de dados serão diferentes e, portanto, não é necessário usar amostras distintas (ou
criadas porbootstrap) para treinamento de cada uma das árvores.
O Algoritmo 6 apresenta um método de construção de árvores extremamente aleatórias
capaz de manipular atributos numéricos e atributos temporais. O algoritmo é uma junção da
versão para atributos numéricos de Geurts, Ernst & Wehenkel(2006) com o Algoritmo 5 de
cortes determinísticos para atributos temporais. No caso dos atributos temporais, somente a
seleção do exemplo de referência em cada nó é feita aleatoriamente. A seleção do valor limiar
é sempre realizada com base no exemplo que divide os casos em dois conjuntos de tamanhos
iguais, após ordená-los de acordo com a distância em relaçãoao exemplo padrão. Esta heurística
foi adotada para evitar que cortes ineficazes fossem criados(cortes que concentrem os exemplos
apenas em um dos filhos). O algoritmo pode ainda ser estendidopara que sejam consideradas
43
várias métricas durante a criação de testes em atributos temporais. Neste caso, após escolher
aleatoriamente o exemplo padrão, é preferida a métrica que maximizar o ganho de informação,
usando sempre a mesma heurística para determinação da distância de corte.
Algoritmo 6 Extra-tree: divide um nó considerando atributos numéricos e temporais.Entrada: S= {(x1,θ1), . . . ,(xn,θn)}, conjunto de instâncias de treinamento do nó.Saída: Rm, divisão dos exemplos para os nós filhos.
1: mg←−∞ // Melhor ganho de informação2: Selecione aleatoriamenteK atributosA = {ai,a2, ...,ak}3: para todo ai ∈ A faça4: Selecione aleatoriamente um exemploxk5: seai é um atributo numéricoentão6: R1←{x j |x jai < xkai} eR2←{x j |x jai ≥ xkai}7: senão// ai é um atributo temporal8: D← /0 // Lista pares (exemplo, distância)9: para todo xj ∈ S faça
10: D←D∪ (xj ,δ (xkai ,xjai))11: fim para12: OrdeneD usando a distância como chave13: R1←D[1...(n
2−1)] e R2← D[n2...n]
14: fim se15: g← calcule_ganho(S,R) // R= {R1,R2}16: se(g > mg) então17: mg← g e Rm = {R1,R2}18: fim se19: fim para20: retorne Rm
Em relação à complexidade computacional da criação do corteem um atributo temporal
no Algoritmo 6, a forma aleatória de escolha do exemplo padrão exige apenas uma chamada à
função de distância para cada exemplo em cada atributo avaliado. Como resultado, o tempo total
para construir uma árvore usando este algoritmo é da mesma ordem que o tempo de construção
de uma árvore determinística com características numéricas.
Por fim, é importante ressaltar que o algoritmo de construçãoe combinação de árvores alea-
tórias contribui apenas para melhoria da precisão do classificador e da eficiência computacional
do método. A facilidade de interpretação atribuída às árvores de decisão, neste caso, é bas-
tante sacrificada. Como o foco da avaliação experimental noscapítulos seguintes é somente a
precisão, nenhuma medida para compensar o dano à interpretação das árvores será avaliada.
44
4 Avaliação experimental
Neste capítulo é feita uma avaliação experimental dos algoritmos apresentados nas seções
anteriores. Inicialmente, o desempenho dos algoritmos de classificação adaptados é comparado
ao das versões originais, tanto no caso do método do vizinho mais próximo, quanto no caso das
árvores de decisão. Após isto, as formas de combinação de diversas métricas de similaridade são
avaliadas e comparadas entre si. Nos dois casos, a comparação é feita com base em uma amostra
de problemas exemplos, apresentada a seguir. Por fim, as técnicas são aplicadas ao problema
real de indicação de consumidores suspeitos de fraudes na distribuição de energia elétrica e os
resultados são comparados aos obtidos a partir de bases com características estáticas extraídas
das séries temporais de consumo de energia.
Antes de apresentar os resultados, as próximas seções descrevem os procedimentos segui-
dos durante a experimentação. Em especial, são descritos o método de ajuste dos algoritmos
parametrizáveis e o procedimento empregado para comparação de dois ou mais algoritmos.
4.1 Ajuste de parâmetros e estimativa do erro de classifica-ção
Os procedimentos de comparação descritos na próxima seção requerem que as médias (e,
em alguns casos, a variância) do erro de classificação dos algoritmos sejam estimadas para cada
problema avaliado. Em situações em que o tamanho da amostra de exemplos conhecidos é
limitado, o procedimento de validação cruzada é o mais empregado para este tipo de estima-
tiva (DIETTERICH, 1998). Para determinar a taxa de erro por validação cruzada, os exemplos
conhecidos são divididos aleatoriamente emk conjuntos disjuntos, e o procedimento de treina-
mento e aferição é repetido durantek rodadas, nas quais o conjuntok é usado para aferição do
erro e os demais para treinamento do algoritmo. A taxa de errofinal será a média das obtidas
nask repetições do experimento.
Nos capítulos 2 e 3 foram apresentadas as técnicas de classificação do vizinho mais próximo
45
e de árvores de decisão. Ambas possuem parâmetros ajustáveis que, possivelmente, alteram a
precisão do classificador. Esta interferência normalmentevaria de acordo com o problema,
o que exige uma etapa de ajuste em cada avaliação. No caso das versões conjugadas com
métricas de similaridade, novos parâmetros são introduzidos para configuração das métricas.
Por exemplo, a métricaDTW tem otamanho da janelacomo valor a ser ajustado.
A busca pela melhor configuração é um passo a ser realizado na etapa de treinamento do
classificador. Quando o procedimento de validação cruzada éutilizado para estimativa do erro
de classificação, a busca pela melhor configuração deve ser realizada em cada passo da valida-
ção, considerando somente osk−1 conjuntos reservados para o treinamento naquele passo -
considerar todos os dados durante o ajuste dos parâmetros pode subestimar o erro de classifica-
ção.
A busca pela melhor configuração dos parâmetros em uma base deexemplos é normalmente
feita através de alguma heurística, dado que o espaço de soluções possíveis (configurações
válidas dos parâmetros) é extenso e que a aferição do erro para cada configuração (função
objetivo do problema de minimização) pode ser bastante árdua, já que requer o treinamento de
um classificador. Em um ensaio com validação cruzada, a heurística de busca deve ser ainda
mais eficiente, ou o procedimento de estimativa torna-se computacionalmente inviável.
O Algoritmo 7, que segue a estrutura geral do método de avaliação sugerido por Salzberg
(1997), resume o processo de estimativa do erro de classificação implementado, considerando
a etapa de ajuste de parâmetros.
Algoritmo 7 Estimativa do erro de classificação com ajuste de parâmetros.Entrada: S= {(x1,θ1), . . . ,(xn,θn)}, conjunto de instâncias de treinamento;
P = {p1,p2, . . . ,pe}, os vetores de valores a explorar de cada parâmetro.Saída: em, o erro médio nask execuções da validação cruzada.
1: FaçaY←{Y1,Y2, ...,Yk} // Subconjuntos disjuntos e aleatórios de S para validação cruzada2: para todo Yi ∈Y faça3: T←Y−{Yi} // Conjunto de treinamento da rodada4: FaçaR←{R1,R2, ...,Rq} // Subconjuntos disjuntos e aleatórios de T5: Determinepm, a configuração que minimizou o erro médio de classificação aferido por
validação cruzada emR6: Treine o classificador configurado porpm usando todo o conjuntoT7: Atualizeem de acordo com o erro do classificador emYi
8: fim para9: retorne em
O método de busca pela melhor configuração (linha 5) recebe como entrada o conjunto de
valores a explorar dos parâmetros e avalia todas as|p1|× |p2| . . .×|pe| combinações possíveis
destes valores. No caso dos parâmetros numéricos, apenas alguns pontos discretos são passados
46
ao método para avaliação. Este procedimento não atende ao requisito de eficiência, caso o
número de valores possíveis seja alto. Para contornar esta limitação, apenas os parâmetros das
métricas foram ajustados. Tal decisão é aceitável porque o principal objetivo dos experimentos
é verificar a influência da escolha da métrica de similaridadena precisão dos classificadores e
comparar o classificador original ao adaptado. Ao apresentar os resultados, serão descritos os
parâmetros mantidos constantes e os intervalos dos parâmetros das métricas explorados durante
a validação cruzada.
Ainda sobre o Algoritmo 7, em cada rodada da validação cruzada, o conjunto de treina-
mento foi dividido sempre em três subconjuntos disjuntos (q = 3 na linha 4), usados para esti-
mar a qualidade das configurações. A configuração escolhida foi a que minimizou o erro médio
na validação cruzada nestes três subconjuntos. Este pequeno número de divisões na avaliação
também se deve às restrições computacionais impostas pelo ajuste exaustivo adotado.
4.2 Comparação de algoritmos de classificação
Conforme descrito no Capítulo 1, a avaliação experimental apresentada a seguir tem como
objetivos principais: avaliar se as versões dos algoritmosdo vizinho mais próximo e árvores
de decisão, combinados com medidas de similaridade, em geral, são mais precisas do que as
versões originais em problemas de classificação com dados temporais; avaliar se a combina-
ção de métricas proporciona algum ganho de precisão relevante; verificar se estas adaptações
são adequadas ao problema especial de classificação de possíveis fraudadores do sistema de
distribuição de energia elétrica.
Embora muito relacionadas, as três avaliações demandam métodos de comparação diferen-
tes. Dietterich (1998) descreve uma hierarquia de questõesde natureza estatística encontradas
em trabalhos de aprendizado automático, que podem ser relacionadas às avaliações desejadas.
Nos dois primeiros casos, há um algoritmo base (a versão original) e vários alternativos (as ver-
sões adaptadas com cada uma das métricas). Havendo uma amostra aleatória de problemas de
classificação de domínios que respeitem as restrições enumeradas no Capítulo 1 (ou seja, dados
temporais, unidimensionais etc.), deseja-se saber qual algoritmo, possivelmente, irá produzir o
classificador mais preciso, dado um novo problema qualquer do mesmo tipo. No terceiro caso,
há apenas um problema de classificação e há uma amostra relativamente pequena de dados com
rótulos conhecidos. Deseja-se saber qual dos algoritmos disponíveis produzirá o classificador
mais preciso neste problema selecionado. Por possuir, em princípio, resposta mais simples, a
terceira questão é discutida antes das demais.
47
4.2.1 Comparação de dois classificadores em um mesmo domínio
Para comparar o desempenho de dois classificadores em um mesmo domínio há diversas
alternativas. Provavelmente, o teste mais utilizado em artigos sobre mineração de dados é o
teste-t para dados pareados. Neste teste, o conjunto de dados rotulados é usado para estimar a
média e a variância de uma medida de qualidade dos classificadores. Como não há dados em
abundância, a estimativa é, normalmente, feita por validação cruzada, na qual os subconjuntos
de cada etapa necessariamente devem ser os mesmos para os dois classificadores.
A diferença entre as duas medidas aferidas em cada etapa da validação é calculada e
assume-se que esta diferença seja uma amostra aleatória de uma distribuição normal, com mé-
dia e variância desconhecidas. Chamando estas diferenças de pi = pAi − pB
i e assumindo ainda
que os dois classificadores são iguais (hipótese nula), a estatística
tk =p√
k√
∑ki=1(pi− p)2
k−1
, (4.1)
ondek é o número de conjuntos da validação cruzada ep = 1k ∑k
1 pi , seguirá umadistribuição
t comk−1 graus de liberdade. A hipótese nula é rejeitada se a probabilidade do valor|tk| ser
obtido (valor-p) for menor do que um limiteα% preestabelecido - usa-se com freqüência 5%.
Neste caso, a hipótese alternativa diz que há diferença entre os classificadores, com significância
deα% (DEGROOT; SCHERVISH, 2001).
Dietterich (1998) mostra que oteste-t para dados pareados, formulado como na equa-
ção 4.1, possui debilidades que o torna pouco seguro em avaliações de mineração de dados,
especialmente se as medidas de desempenho tiverem sido estimadas por validação cruzada.
Durante a validação, cada par de conjuntos de treinamento compartilha 80% dos exemplos, o
que prejudica a capacidade do teste em estimar a variância causada por diferenças nos dados
do treinamento. Na prática, a estimativa da variância será subestimada e o valor de|tk| será
artificialmente grande, fazendo com que a hipótese nula sejamais facilmente rejeitada. Diette-
rich (1998) sugere como alternativas o teste deMcNemar, que verifica se a diferença entre os
classificadores é significante contanto o número de acertos ede erros em comum dos métodos,
e uma correção para oteste-t para dados pareados, que ele chama de5x2cv.
Embora o teste deMcNemarseja muito seguro, ele é pouco flexível, pois não permite que
outras métricas de classificação, além da taxa de erro, sejamusadas na comparação. Em relação
à correção doteste-t para dados pareados, Nadeau & Bengio (2003) avaliam algumas possí-
veis alternativas (inclusive o5x2cv) e sugerem uma correção conservadora para a estimativa da
48
variância, baseada no total de sobreposição entre os conjuntos da validação. Supondo que ape-
nas uma validação cruzada seja feita, oteste-t corrigido para dados pareadosé definido pela
seguinte equação:
tc =p
√
(
1k
+1
k−1
)
σ2
, (4.2)
ondek é o número de conjuntos da validação cruzada eσ2 = ∑ki=1(pi−p)2
k−1 . Como no caso anterior,
tc segue umadistribuição tcomk−1 graus de liberdade e, em relação à equação 4.1, o valor de
tc é menos sensível ao valor dek. O procedimento para rejeição da hipótese nula é análogo ao
da formulação anterior.
4.2.2 Comparação de vários classificadores em múltiplos domínios
Métodos estatísticos de comparações múltiplas são mais apropriados quando o desejado é
avaliar diversas variáveis aleatórias simultaneamente (no caso o erro médio dos classificadores).
Salzberg (1997) mostra que realizar comparações de todos osalgoritmos par a par (por exemplo,
usando oteste-t para dados pareados) e reportar diferenças sem considerar a multiplicidade do
experimento é uma falácia estatística. Mesmo realizando múltiplas comparações, ao reportar
os resultados, espera-se mostrar que existem diferenças entre os algoritmos com significância
de α%. Tal nível de significância pode ser interpretado como sendo a probabilidade de uma
amostra de dados aleatória gerar o resultado atual, supondoque os algoritmos classifiquem
igual (hipótese nula). Se o valorα for baixo (geralmente menor que 5%), rejeita-se a hipótese
nula. O nível de significância pode ser também interpretado como sendo a probabilidade de
rejeitar a hipótese nula quando ela era verdadeira (ou probabilidade de cometer um erro do Tipo
I). O problema, ao realizar múltiplas comparações individuais, é que o valor da significância
em cada um dos experimentos deve ser ajustado para garantir que o conjunto completo de testes
tenha probabilidade baixa de erro do Tipo I.
Demsar (2006) faz um resumo de métodos estatísticos para comparação de algoritmos em
múltiplos domínios. Neste tipo de comparação, vários problemas são avaliados por todos os
classificadores envolvidos. Demsar (2006) sugere como maisadequados oTeste ANOVA para
medidas repetidase o similar não-paramétricoTeste de Friedman. Para evitar as suposições do
Teste ANOVAsobre normalidade da distribuição e igualdade de variânciadas variáveis aleató-
rias, o autor elege oTeste de Friedmancomo o mais apropriado para a situação. O requisito do
teste é que exista uma amostra aleatória de problemas de classificação. Ao contrário doteste-t,
que requer a estimativa da variância do erro, apenas a estimativa da média do erro é necessária
49
em cada um dos problemas. A fonte de variabilidade, neste caso, é o comportamento do erro
dos classificadores em problemas distintos (e supostamenteindependentes).
O Teste de Friedman, cuja descrição detalhada pode ser encontrada, por exemplo, em
(SHESKIN, 2000), testa a hipótese nula de que emc≥ 2 experimentos diferentes e depen-
dentes (também chamados de tratamentos), pelo menos dois representem variáveis aleatórias
com medianas diferentes. No caso da comparação de classificadores, osc tratamentos são evi-
dentemente dependentes, dado que todos os classificadores tiveram a precisão aferida, em cada
um dos problemas, a partir da mesma amostra de dados e ainda a partir da mesma divisão du-
rante a validação cruzada. Para realização do teste, o erro apurado dos classificadores, em cada
problema, é ordenado e recebe um posto, que variará de 1 atéc. O melhor algoritmo recebe o
índice 1 e o pior o índicec. Em caso de empates, é atribuída aos classificadores empatados a
média dos postos que estes deveriam receber.
O Teste de Friedmancompara o valor médio dos postos obtidos pelos classificadores em
todos os problemas avaliados. Se a hipótese nula for verdadeira e os classificadores forem equi-
valentes, as médias dos postos dos classificadores devem seriguais. Chamando estas médias
deRj , com j = 1, . . . ,c, o teste mede uma estatística derivada do quadrado dos desvios deRj
em relaçãoR (a média esperada, caso a hipótese nula seja verdadeira). Sob estas condições, a
estatística de Friedman, definida como
χ2r =
12Nc(c+1)
[ c
∑j=1
R2j −
c(c+1)2
4
]
(4.3)
segue uma distribuiçãoχ2 com(c−1) graus de liberdade, se os valores dec e N forem sufici-
entemente grandes - na Equação,N representa o tamanho da amostra que, no caso, é o número
de problemas independentes avaliados. Demsar (2006) sugere N > 10 ec > 5 como uma boa
aproximação. O autor apresenta ainda a seguinte definição, derivada da estatística de Friedman,
para corrigir o excesso de conservadorismo da versão original:
Fr =(N−1)χ2
r
N(c−1)−χ2r, (4.4)
ondeFr segue uma distribuiçãoF com(c−1) e (c−1)(N−1) graus de liberdade.
Se o valor encontrado deFr indicar baixa probabilidade do resultado experimental serob-
tido, rejeita-se a hipótese nula. A hipótese alternativa é asua negação, ou seja, o teste indica que
pelo menos um par de classificadores é diferente, de acordo com a significância definida. Neste
caso, inicia-se a segunda parte do teste, para determinar quais são os pares de classificadores
50
diferentes. Para isto, computa-se
z=(Ri−Rj)
√
c(c+1)
6N
(4.5)
para determinar se a diferença entre os classificadoresi e j é significante. O valor de|z| é usado
para encontrar a probabilidade do resultado (valor-p) considerando uma distribuição normal.
O valor limite para considerar a diferença significante deveser, porém, ajustado de acordo
com o número de comparações realizadas. Se todos osc classificadores forem avaliados par a
par, c(c−1)/2 comparações são efetuadas. Quando existe um classificadorreferência,c−1
comparações são feitas. Dois métodos de ajuste do valor limite foram usados: aCorreção de
Bonferronie oMétodo de Holm.
A Correção de Bonferronidivide o valor limite pelo número de comparações realizadas
e considera significante apenas as comparações que apresentaremvalor-p menor que esta ra-
zão. Por exemplo, caso cinco comparações estejam sendo realizadas e o nível de significância
desejado seja 5%, serão significantes apenas as comparaçõescomvalor-pmenor que 1%.
Embora bastante segura, aCorreção de Bonferronié muito conservadora, especialmente
quando todos os classificadores são comparados par a par. É normal, nestas situações, que o
Teste de Friedmanreporte a existência de diferenças, mas que a segunda etapa,com aCorreção
de Bonferroni, não consiga identificá-las. OMétodo de Holmé menos conservador por ajustar
o valor limite seqüencialmente, de acordo com o número de análises já realizadas. Nesta forma
de ajuste, todas as comparações são feitas e osvalores-pencontrados são ordenados. O menor
valor-pé contraposto ao valor limite dividido pelo total de comparações realizadas - por exem-
plo, c−1 se existir um classificador referência. Caso o resultado seja significante, passa-se ao
segundo menorvalor-p, que é contraposto ao valor limite dividido pelo total de comparações
menos 1 (c−2 no exemplo anterior). O procedimento continua até que ovalor-p não permita
mais rejeitar a hipótese de que o par de classificadores é igual. Todas as demais comparações
(que não foram analisadas) também falham e os classificadores envolvidos são considerados
similares. Tanto oMétodo de Holmquanto aCorreção de Bonferronipodem ser usados em
outros tipos de comparações múltiplas, para correção do nível de significância em repetições
de experimentos em um mesmo conjunto de dados (por exemplo, várias repetições doteste-t
para dados pareados). Combiná-los com oTeste de Friedman, porém, aumenta as chances de
encontrar diferenças nos dados quando elas, de fato, existem.
O ponto mais crítico ao comparar vários classificadores em diversos domínios é o processo
de amostragem. Para que o resultado doTeste de Friedmanseja realmente válido, a amostra
de dados do experimento, que neste caso são problemas diferentes de classificação, deve ser
51
necessariamente aleatória. A dificuldade em conseguir tal amostra é evidente. Nas avaliações
apresentadas a seguir, foram usados todos os problemas (vinte) disponíveis no repositório orga-
nizado por Keogh et al. (2006), além de mais dois problemas disponibilizados por Geurts (2002)
e Ligteringen et al. (1997). No caso do repositório de Keogh et al. (2006), mesmo oriundos de
diversos autores, vários problemas são formados por dados sintéticos, provavelmente desenha-
dos para validação de alguma nova técnica de interesse do autor original1. Em alguns casos,
os dados, embora reais, são variações de um mesmo problema, pré-processado de maneiras
diferentes.
Além desta falta de aleatoriedade, a comparação que segue está dividida em blocos, cada
um para avaliar a adaptação de um algoritmo diferente (NN, árvore aleatória etc.). Em uma
configuração ideal, cada um destes blocos deveria ser avaliado a partir de uma amostra aleatória
distinta. Dada a limitação do número de problemas disponíveis, isto é evidentemente impossí-
vel. Embora seja possível corrigir os limites de significância (por exemplo, usando oMétodo
de Holm) levando em conta também esta repetição da amostra em experimentos que, em princí-
pio, não deveriam estar relacionados, a quantidade total decomparações realizadas exigiria um
ajuste muito severo, que ocultaria completamente as possíveis diferenças em cada conjunto de
experimentos.
Este tipo de deficiência em análises experimentais parece ser recorrente em trabalhos da
área de mineração de dados. Prechelt (1996), Salzberg (1997) e, mais recentemente, Keogh
& Kasetty (2003) atestam o quanto a falta de avaliações mais abrangentes e, em muitos casos,
também a ausência de metodologia adequada, comprometem parte dos trabalhos publicados na
área. A avaliação de Demsar (2006), de trabalhos ainda mais recentes, mostra uma boa evolução
em relação aos métodos experimentais que, mesmo assim, ainda podem ser melhorados de
acordo com os procedimentos descritos pelo autor (e aqui adotados). Porém, a deficiência em
relação aos repositórios de dados para experimentação parece não resolvida.
Mesmo com estas restrições, é importante ressaltar que a amostra usada nos experimentos
apresentados a seguir é, possivelmente, a maior e mais completa disponível - especialmente
quando considerados apenas problemas de classificação no formato de interesse. Embora esta
deficiência na amostragem imponha um limite em relação à abrangência das conclusões perante
o universo de problemas de classificação, ela não impede que,no mínimo, fortes indícios sejam
atestados.1Não serão descritos os detalhes da preparação de cada uma destas bases. Keogh et al. (2006) listam as publi-
cações nas quais é possível encontrar tais descrições.
52
4.3 Avaliação de métricas para determinação do vizinho maispróximo
Esta seção descreve os resultados da classificação usando o algoritmo do vizinho mais pró-
ximo com as métricas descritas no Capítulo 2. A Tabela 4.1 lista a média do erro de classificação
em cada um dos 22 problemas disponíveis nos repositórios públicos sobre o assunto. A primeira
coluna contém o nome do problema no repositório2. O melhor resultado em cada problema é
escrito em negrito.
Tabela 4.1: Taxa de erro média (percentual) do algoritmo do vizinho mais próximo com métri-cas diversas.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.50 Words 31,27 27,74 29,95 28,73 20,7718,90 19,78 30,50
Adiac 32,91 35,59 33,67 34,31 34,19 44,29 44,81 44,04Beef 40,00 46,67 45,00 45,00 41,6728,33 28,33 43,33CBF 1,18 1,83 0,00 0,00 0,11 0,22 0,32 1,72
CBF_tr 2,38 2,58 0,08 0,08 0,10 0,38 0,22 3,10Coffee 0,00 0,00 0,00 1,82 0,00 0,00 1,82 0,00
ECG200 9,50 6,50 9,00 1,00 10,50 13,50 11,00 12,00Face/All 5,02 3,82 4,93 4,18 1,64 0,89 1,11 4,31
Face/Four 5,34 2,65 7,95 7,15 5,34 1,78 1,78 2,65Fish 18,57 20,29 18,57 18,57 15,43 8,86 10,00 19,14
Gun/Point 6,50 4,50 6,50 8,00 2,50 2,00 1,50 3,00Lighting 2 24,73 19,73 23,93 21,4713,10 27,20 19,73 25,60Lighting 7 35,05 29,38 31,55 27,3423,13 26,58 30,17 36,45Olive Oil 11,67 11,67 16,67 23,3310,00 51,67 51,67 51,67
OSU Leaf 34,40 34,16 36,42 37,10 27,3613,80 16,29 37,56Pump 0,00 0,00 2,50 0,00 0,00 0,00 0,00 0,00
S. Leaf 18,13 17,24 15,82 16,89 13,07 8,89 9,42 16,00S. Control 7,83 9,67 0,83 1,00 0,83 4,00 3,17 13,50
Trace 15,00 12,50 15,00 11,50 0,50 5,50 1,00 14,50Two Pat. 1,52 0,34 0,48 0,72 0,00 0,02 0,02 0,08
Wafer 0,08 0,13 0,15 0,14 0,14 0,13 0,140,07Yoga 6,27 6,39 6,27 6,39 5,12 2,97 3,55 8,55
Todos os resultados foram obtidos por validação cruzada comajuste de parâmetros como
descrito na Seção 4.1. No caso das bases disponíveis em (KEOGH et al., 2006), o organizador
do repositório disponibiliza os dados separados em dois conjuntos distintos, para treinamento e
teste. Os resultados deste capítulo foram obtidos por validação cruzada no conjunto completo,
aleatoriamente embaralhado. O Apêndice A mostra os resultados com a divisão original, que
2Todas as bases podem ser encontradas através deste nome em (KEOGH et al., 2006), excetoCBF_tr, encon-trada em (GEURTS, 2002), ePump, em (LIGTERINGEN et al., 1997).
53
não alteram as conclusões deste capítulo.
Conforme já mencionado, apenas os parâmetros das métricas foram ajustados. Todos os
resultados foram obtidos com o número de vizinhos (possívelparâmetro do classificador) cons-
tante e igual a 1. No caso das métricas, como todos os parâmetros são numéricos e contínuos,
foram definidos os limites de um intervalo e um incremento comos quais foram gerados os
valores discretos avaliados no processo de busca.
A primeira e a segunda métricas da tabela não possuem parâmetros ajustáveis. Tratam-
se da distância Euclidiana (coluna sob o títuloEuc.) e da distância Manhattan (coluna sob o
título Man.). Para a métricaDTW, o parâmetro existente é o tamanho da janela de ajuste, que
foi avaliado para todos os valores naturais entre 0 e 100 (unidades percentuais em relação ao
tamanho da série).
No caso da distância de edição (coluna sob o títuloE.D. na Tabela 4.1) e daLCSS, os
parâmetros a ajustar são o tamanho da janela e o limiarδ que indica se dois valores representam
o mesmo caractere (usado em substituição ao processo de discretização). Os valores buscados
para a janela de ajuste foram os mesmo usados comDTW. Paraδ , foram considerados os valores
entre 0,1 e 1,0 com incremento 0,1, sendo que este intervalo foi eficiente porque todos os dados
foram previamente normalizados (para média 0 e desvio padrão 1). Os mesmo valores deδforam avaliados para a distância de Hamming (coluna sob o título Ham.), que possui apenas
este parâmetro a ajustar.
As distâncias calculadas a partir dos primeirosk coeficientes daTransformada de Fourier
(coluna sob o títuloFou.) ou dasj primeiras resoluções daTransformada Wavelet(coluna sob
o título Wav.na tabela) possuem o númerok de coeficientes e o númeroj de resoluções como
parâmetros, respectivamente. Ambos foram avaliados para todos os valores naturais entre 1 e
100 (unidades percentuais em relação ao total de coeficientes/resoluções).
Sobre os resultados na Tabela 4.1, a primeira constatação é que nenhuma métrica é melhor
em todas as situações. É também importante notar que a melhormétrica foi, em 16 dentre os
22 problemas, ouDTW ou a distância de edição. Além disto, quando comparadas apenas estas
duas medidas, a diferença entre os resultados obtidos em vários problemas é numericamente
bastante relevante. Esta diversidade de resultados era esperada e indica que cada métrica se
adaptou melhor a alguns problemas, possivelmente por suas características individuais, como
correção de defasagens, filtragem de ruídos etc.
A partir desta tabela de resultados, a primeira pergunta a responder é se há alguma evi-
dência de que pelo menos dois classificadores são diferentes- hipótese alternativa doTeste de
54
Friedman. A hipótese nula é que todas as variações são iguais e que os resultados na tabela
são apenas obra do acaso. Para esta tabela de dados, oTeste de Friedmanreporta probabilidade
de 0,05% deste resultado ocorrer, supondo que a hipótese nula seja verdadeira - é, portanto,
bastante seguro rejeitá-la.
Neste caso, a questão passa a ser determinar quais classificadores são diferentes entre si.
Apenas 7 comparações foram feitas, sempre contrapondo uma métrica à forma normal do algo-
ritmo (distância Euclidiana). A Tabela 4.2 mostra osvalores-pencontrados, ainda sem nenhum
ajuste para comparações múltiplas, e as médias dos postos obtidos pelos classificadores a partir
dos dados da Tabela 4.1. O classificador de referência obteveposto médio de 5,32.
Tabela 4.2:Valores-pe média dos postos da comparação de métricas contra a distância Eucli-diana. Valores ainda sem o ajuste requerido pela multiplicidade.
Man. Fou. Wav. DTW E.D. LCSS Ham.Valor-p% 62,2 71,2 55,9 0,1 0,7 2,1 42,4
Média (ref. 5,32) 4,95 5,05 4,89 2,93 3,34 3,61 5.91
Considerando o nível de significância usual de 5% e aCorreção de Bonferroni, o resultado
na Tabela 4.2 é significante se o valor for menor que 0,71%. Assim, os resultados com a
distância de edição eDTWpodem ser considerados significantes. O resultado comLCSSapenas
fica perto do limite quando analisado com oMétodo de Holmcom nível de significância de
10%, ou seja, é difícil afirmar que a medida é melhor do que a distância Euclidiana, embora
haja algumas evidências. Em relação às demais métricas, nãohá nenhuma evidência de que elas
sejam mais adequadas a este tipo de problema, embora, em alguns casos, o classificador seja
mais preciso do que o original.
A partir destes resultados, pode-se concluir que é possívelobter, em geral, classificadores
melhores variando a métrica do algoritmo. Em especial, as melhores escolhas são a distância
de edição eDTW. Como análise final, a Tabela 4.3 mostra os resultados obtidos através da
combinação de várias métricas, de acordo com o procedimentodescrito na Seção 2.3. A tabela
mostra também o melhor resultado de cada linha da Tabela 4.1.
Para gerar os resultados da Tabela 4.3, apenas os pesos das métricas foram variados. Usando
o método de busca do Algoritmo 3, com 8 métricas, pesos variando entre 0 e 1, passo 0,1 e soma
total dos pesos distribuídos entre as métricas sempre iguala 1, foram testadas aproximadamente
20.000 configurações distintas de pesos em cada problema. Como seria claramente inviável
testar todas as combinações possíveis de parâmetros das métricas para cada configuração de
pesos, foi usado um ajuste fixo em cada problema. O ajuste escolhido foi um dos 10 obtidos
durante a validação cruzada do experimento anterior - em geral, a configuração das métricas foi
55
Tabela 4.3: Vizinho mais próximo com combinação de métricase melhor resultado individual.Taxa de erro média (percentual).
Combinação Individual Combinação Individual50 Words 18,56 18,90 Lighting 2 14,00 13,10
Adiac 35,98 32,91 Lighting 7 25,99 23,13Beef 30,00 28,33 Olive Oil 13,33 10,00CBF 0,00 0,00 OSU Leaf 14,02 13,80
CBF_tr 0,08 0,08 Pump 0,00 0,00Coffee 0,00 0,00 S. Leaf 9,60 8,89
ECG200 1,00 1,00 S. Control 1,17 0,83Face/All 1,02 0,89 Trace 0,50 0,50
Face/Four 2,65 1,78 Two Pat. 0,00 0,00Fish 11,43 8,86 Wafer 0,07 0,07
Gun/Point 5,00 1,50 Yoga 3,30 2,97
bastante estável nos passos da validação cruzada em um mesmoproblema.
Os resultados da Tabela 4.3 mostram que o procedimento não foi bem sucedido. Em apenas
1 problema foi obtido resultado melhor do que o anterior. Em 8problemas o resultado foi
exatamente o mesmo: a configuração de pesos escolhida, nestes casos, marcou peso máximo
para a melhor métrica individual e peso zero para todas as demais.
Nos 13 problemas em que o resultado foi inferior houve distribuição de pesos entre algumas
métricas. Portanto, no conjunto de treinamento de cada passo da validação cruzada, a distribui-
ção de pesos parecia ser mais precisa do que a opção (também avaliada) de apenas uma métrica
com peso máximo. Isso sugere que, além da provável influêncianegativa da falta de ajuste
dos parâmetros das métricas, a suposta melhoria no conjuntode treinamento era causada por
super-ajuste aos dados.
Além destas duas possíveis explicações, é ainda bastante seguro supor que combinar estas
medidas de similaridade não gera resultados melhores porque elas são fortemente correlacio-
nadas. Em alguns casos, tal correlação é evidente:DTW e a distância dosk coeficientes de
Fourier, por exemplo, podem ser configuradas para retornar exatamente o mesmo valor que a
distância Euclidiana. Em alguns problemas, filtrar os ruídos, como faz a distância dosk coefici-
entes de Fourier, pode ser mais vantajoso. Em outros, remover as distorções no eixo do tempo,
como fazDTW, é mais adequado. É difícil, porém, imaginar que exista muita informação extra
na distância original (Euclidiana), após verificar que taistransformações eram mais vantajosas.
Após estes experimentos, o procedimento que parece ser maisadequado para utilização
do classificador do vizinho mais próximo em problemas temporais é realizar um treinamento
com cada uma das métricas isoladamente e escolher a que minimizou o erro no conjunto de
56
treinamento. Se há alguma restrição em experimentar todas as métricas, a escolha mais acertada
é optar ou porDTW ou pela distância de edição. Nos dois casos, é necessária umaetapa de
ajuste de parâmetros, dado que eles influenciam decisivamente na precisão do classificador.
4.4 Árvore aleatória com adaptação para dados temporais
Nesta seção é feita uma avaliação da influência da escolha da métrica na construção de ár-
vores de decisão aleatórias. Assim como no caso da avaliaçãodo algoritmo do vizinho mais
próximo, inicialmente serão apresentados os resultados davalidação com cada uma das métrica
isoladamente. Após isto, é apresentado o resultado do algoritmo com várias métricas combina-
das. Na próxima seção são apresentados os mesmos resultados, porém para árvores de decisão
convencionais (com poda).
A Tabela 4.4 mostra os resultados do algoritmo nos 22 problemas disponíveis para vali-
dação experimental. Em relação à Tabela 4.1, há uma nova coluna, chamada de “Num.”, que
contém o resultado da avaliação considerando cada valor da variável temporal uma caracte-
rística numérica. Os resultados desta coluna não utilizaram, portanto, nenhuma métrica para
comparação dos exemplos. Esta coluna será a base das comparações que seguem, uma vez que
trata-se da forma convencional do algoritmo.
Os resultados na Tabela 4.4 também foram obtidos por validação cruzada, como descrito na
Seção 4.1. Os resultados foram gerados combinando por voto 50 árvores aleatórias, treinadas
de acordo com o Algoritmo 6. Para os experimentos com métricas de similaridade, como todas
as bases são temporais e unidimensionais, apenas 1 atributoé avaliado em cada nó durante a
construção das árvores. No caso dos experimentos da coluna “Num.”, o Algoritmo 6 tratará
cada valor das séries como uma característica numérica e independente das demais.
O total de árvores participantes da decisão final (50) foi escolhido arbitrariamente e man-
tido fixo durante todos os experimentos. Possivelmente, o número de árvores necessário para
obtenção do mesmo resultado é menor para a maioria dos problemas - Breiman (1996) chega
a uma conclusão semelhante em sua avaliação experimental sobre o procedimento debagging.
Usar menos árvores é relevante porque reduz o esforço computacional do treinamento (por um
fator proporcional ao número de árvores). Os experimentos,porém, avaliam apenas a precisão,
por isso não vem ao caso determinar o número mínimo de árvoresnecessárias para produção do
resultado.
Sobre os parâmetros das métricas, nesta avaliação foi feitauma busca pela melhor con-
figuração nos mesmos intervalos (e incrementos) da busca como algoritmo do vizinho mais
57
Tabela 4.4: Taxa de erro média (percentual) da árvore aleatória com métricas temporais emdiversos problemas de classificação. O melhor desempenho emcada problema é escrito emnegrito.
Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.50 Words 35,36 32,49 31,93 32,49 30,50 25,08 26,9623,32 35,47
Adiac 33,29 35,85 39,05 35,85 37,0032,26 32,65 33,29 39,94Beef 38,33 36,67 46,67 48,33 38,33 40,00 40,0035,00 50,00CBF 1,08 0,32 0,32 0,00 0,00 0,11 0,00 0,00 0,00
CBF_tr 2,78 0,88 0,66 0,14 0,16 0,16 0,20 0,08 0,52Coffee 1,67 0,00 7,12 0,00 0,00 0,00 0,00 1,82 1,82
ECG200 13,50 11,00 13,00 11,50 1,00 12,00 12,50 10,50 11,50Face/All 8,71 8,76 7,78 8,04 7,07 2,62 1,29 1,60 9,42
Face/Four 5,42 6,25 8,89 9,80 10,67 7,98 2,69 1,78 5,38Fish 22,57 19,71 24,57 20,57 19,43 19,4311,43 13,43 23,14
Gun/Point 2,00 5,00 6,50 7,50 6,50 3,00 1,50 2,00 6,00Lighting 2 18,90 22,23 22,93 20,60 20,6313,87 19,70 18,03 22,17Lighting 7 32,83 30,74 27,24 28,70 32,2920,32 27,96 27,91 31,53Olive Oil 8,33 10,00 13,33 10,00 18,33 15,00 63,33 63,33 65,00
OSU Leaf 38,00 37,54 36,86 33,94 38,68 29,17 21,6920,11 38,22Pump 7,50 0,00 0,00 2,50 0,00 0,00 0,00 5,00 0,00
S. Leaf 12,36 15,11 14,31 13,87 15,20 11,38 9,248,71 13,51S. Control 4,17 2,83 2,83 0,83 0,67 0,83 1,83 1,67 3,83
Trace 14,50 7,50 12,00 8,50 8,50 0,50 5,50 4,00 12,00Two Pat. 17,28 3,10 1,16 1,56 1,92 0,00 0,10 0,00 0,48
Wafer 0,21 0,17 0,17 0,20 0,21 0,21 0,13 0,15 0,13Yoga 6,46 7,76 8,42 7,67 7,61 6,73 4,27 4,91 9,67
próximo.
Os resultados da Tabela 4.4 mostram que não há uma melhor escolha para todos os pro-
blemas, também no caso das árvores aleatórias.DTW, distância de edição eLCSSapresentam
o melhor resultado em 19 dos 22 problemas. As diferenças entre as medidas em um mesmo
problema, novamente, variam bastante e, na maioria dos casos, é numericamente relevante.
Para determinar se há alguma evidência de que pelo menos doisclassificadores nesta tabela
são diferentes, foi aplicado oTeste de Friedman. A hipótese nula de que todos os classificadores
são iguais pode ser rejeitada com segurança, dado que o testereporta que a probabilidade do
resultado ocorrer, supondo que a hipótese nula seja verdade, é menor que 0,001%.
A Tabela 4.5 mostra osvalores-pencontrados nas 8 comparações, que contrapõem as adap-
tações com métricas de similaridade à versão original, que supõe características numéricas. Na
tabela é mostrada também a média dos postos obtida por cada classificador. O classificador de
referência obteve posto médio igual a 6,34.
58
Tabela 4.5:Valores-pe média dos postos da comparação entre a adaptação com métricas e aversão original da árvore extremamente aleatória. Valoresainda sem o ajuste requerido pelamultiplicidade.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.Valor-p% 34,9 89,1 21,5 21,5 0,1 0,0 0,0 82,6
Média (ref. 6,34) 5,57 6,45 5,32 5,32 3,50 3,18 2,80 6,52
Considerando o nível de significância de 5% e aCorreção de Bonferroni, os resultados
da Tabela 4.5 são significantes se o valor for menor que 0,625%. Desta forma, neste tipo de
problema, é possível afirmar que a árvore aleatória adaptadacom as métricasDTW, distância de
edição eLCSSé melhor do que a versão original do algoritmo. Não é possíveldizer o mesmo
das demais métricas, dado que nenhuma é significante, mesmo se a análise fosse feita pelo
Método de Holmcom nível de significância relaxado.
Os resultados confirmam que a adaptação é melhor do que a versão original neste tipo de
problema, porém somente para algumas medidas de similaridade. A partir desta conclusão, o
Algoritmo 6 foi executado mais uma vez, porém considerando todas as medidas de similaridade
ao mesmo tempo. Nesta versão, após determinar aleatoriamente o exemplo de referência, é
escolhida a métrica que maximizar o ganho de informação na divisão dos exemplos do nó. Dado
que o número de combinações possíveis de configurações de parâmetros é extremamente alto,
foi usado um ajuste fixo para todas as métricas em cada problema (um dos 10 ajustes produzidos
durante a validação cruzada no experimento anterior). A Tabela 4.6 mostra o melhor resultado
obtido usando apenas uma métrica por vez e o resultado da combinação de todas as medidas de
similaridade.
Tabela 4.6: Combinação de métricas e melhor resultado individual da árvore de decisão aleató-ria adaptada. Taxa de erro média (percentual).
Combinação Individual Combinação Individual50 Words 21,33 23,32 Lighting 2 17,17 13,87
Adiac 29,32 32,26 Lighting 7 18,87 20,32Beef 43,33 35,00 Olive Oil 18,33 10,00CBF 0,00 0,00 OSU Leaf 21,02 20,11
CBF_tr 0,12 0,08 Pump 0,00 0,00Coffee 0,00 0,00 S. Leaf 8,36 8,71
ECG200 0,50 1,00 S. Control 0,50 0,67Face/All 1,78 1,29 Trace 0,50 0,50
Face/Four 2,69 1,78 Two Pat. 0,02 0,00Fish 12,86 11,43 Wafer 0,13 0,13
Gun/Point 2,50 1,50 Yoga 5,27 4,27
O resultado da Tabela 4.6 mostra que, ao combinar as métricas, em 6 problemas houve
59
melhoria, em 11 o resultado foi inferior e em 5 foi exatamenteo mesmo que o melhor re-
sultado individual. É provável que, se fosse viável realizar o mesmo ajuste de parâmetros na
versão combinada, os resultados seriam mais próximos da melhor métrica individual. O custo
computacional do ajuste dos parâmetros de várias métricas (em conjunto) inviabiliza a solução
combinada.
A conclusão final é que o mais adequado parece ser escolher, usando o conjunto de trei-
namento, apenas a melhor métrica individual. Para cada métrica disponível, é necessária uma
etapa de ajuste dos parâmetros. Se não é possível avaliar um grande número de métricas, as
melhores escolhas sãoLCSS, DTW e a distância de edição. Os resultados podem ser também
comparados ao melhor resultado do algoritmo do vizinho maispróximo, mas antes disto serão
apresentados os resultados da árvore de decisão convencional.
4.5 Árvore de decisão convencional com adaptação para da-dos temporais
Nesta seção são apresentados alguns resultados usando a árvore de decisão com o teste
de divisão especial para tratamento de atributos temporais, descritos nos algoritmos 4 e 5. Os
resultados a seguir foram gerados de forma semelhante aos das seções anteriores, porém há uma
diferença relevante: nos experimentos anteriores, foi possível realizar um ajuste de parâmetros
detalhado, dado que os algoritmos eram eficientes. O teste dedivisão do Algoritmo 5 é bastante
ineficiente o que inviabiliza o ajuste na forma como ele foi concebido.
Yamada et al. (2003), autores originais do teste do Algoritmo 5, em sua avaliação experi-
mental, utilizam somente uma métrica (DTW) e uma configuração de parâmetros fixa em todos
os problemas avaliados. Os resultados da Tabela 4.7 foram obtidos de forma semelhante, po-
rém, para cada problema, uma configuração diferente foi gerada. O ajuste escolhido para cada
problema foi o melhor obtido em uma das execuções da validação cruzada dos experimentos
com a árvore aleatória (o mesmo que gerou os resultados da Tabela 4.6).
Na Tabela 4.7, a coluna “Num.” contém o resultado da validação com a árvore extrema-
mente aleatória sem nenhuma adaptação temporal. Mesmo sem oauxílio de nenhuma ferra-
menta estatística, é fácil notar que a árvore com adaptação temporal classifica pior do que a
árvore aleatória convencional. Em apenas 6 problemas uma das várias adaptações consegue
taxa de erro menor do que a versão original. Considerando o procedimento de comparação das
seções anteriores, todas as métricas são consideradas estatisticamente diferentes do algoritmo
de referência peloMétodo de Holmcom 5% de significância (pelaCorreção de Bonferroni,
60
Tabela 4.7: Taxa de erro média (percentual) da árvore de decisão (podada) com métricas tem-porais. O melhor desempenho em cada problema é escrito em negrito.
Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.50 Words 35,36 56,35 57,68 58,79 56,91 50,28 54,92 55,91 59,78
Adiac 33,29 56,21 57,10 56,98 57,87 52,61 46,73 48,27 62,09Beef 38,33 56,67 50,00 56,67 46,67 50,00 53,33 51,67 53,33CBF 1,08 6,13 3,87 3,33 2,90 5,16 3,76 3,44 2,80
CBF_tr 2,78 21,22 15,08 13,92 12,68 11,56 7,74 6,48 13,88Coffee 1,67 3,64 1,82 5,30 5,30 10,61 14,39 14,39 14,39
ECG200 13,50 15,50 14,50 16,00 0,50 15,50 18,00 21,00 15,50Face/All 8,71 38,40 35,47 41,51 34,13 20,27 17,60 20,76 37,82
Face/Four 5,42 30,24 18,70 19,72 16,01 12,41 11,62 21,42 15,18Fish 22,57 36,86 41,43 36,57 38,57 35,43 29,14 26,29 43,43
Gun/Point 2,00 15,00 12,00 17,00 17,00 9,00 13,50 9,00 20,00Lighting 2 18,90 26,50 25,53 26,43 28,10 23,80 18,97 24,73 23,03Lighting 7 32,83 44,75 35,67 42,61 45,39 36,28 33,62 38,50 39,11Olive Oil 8,33 16,67 18,33 16,67 16,67 25,00 31,67 35,00 33,33
OSU Leaf 38,00 54,52 50,43 53,64 53,83 53,1735,50 40,24 58,38Pump 7,50 0,00 0,00 5,00 5,00 0,00 5,00 12,50 5,00
S. Leaf 12,36 31,02 31,82 32,00 31,02 30,93 23,02 24,62 34,84S. Control 4,17 11,83 11,83 2,50 3,67 5,67 6,83 7,50 12,83
Trace 14,50 23,50 27,00 23,50 25,00 4,00 6,00 10,50 22,50Two Pat. 17,28 47,82 37,30 43,54 44,9016,02 16,80 21,32 30,78
Wafer 0,21 2,46 1,70 2,11 2,26 1,72 1,48 1,12 1,56Yoga 6,46 19,85 24,12 20,30 20,55 29,15 19,39 28,33 20,76
somente a distância de edição não é diferente). Dado que a média dos postos das adaptações
é maior do que a média dos postos da referência, todas são piores do que a versão original. A
Tabela 4.8 mostra osvalores-pe as médias dos postos obtidos a partir dos resultados da Tabela
4.7. A média dos postos da referência é 1,73 e está escrita na primeira coluna da tabela.
Tabela 4.8:Valores-pe média dos postos da comparação da árvore com adaptação temporalcontra a versão não adaptada da árvore extremamente aleatória.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.Valor-p% 0,0 0,0 0,0 0,0 0,4 1,5 0,0 0,0
Média (ref. 1,73) 6,50 5,59 6,16 5,64 4,14 3,73 4,98 6,50
Estes resultados indicam que a árvore adaptada não é uma boa escolha para este tipo de
problema. Yamada et al. (2003) reportam bons resultados, inclusive em comparações com o
algoritmo do vizinho mais próximo. Os experimentos deles, porém, são feitos em menos pro-
blemas e todos multidimensionais. Dado que os problemas aqui avaliados são, em princípio,
mais simples (por serem unidimensionais), não é prudente dizer que a adaptação não tem utili-
dade em nenhuma situação. É certo, porém, que de todas as alternativas avaliadas esta foi a de
61
pior desempenho.
Uma vez que a construção de apenas uma árvore de decisão adaptada e podada parece
não ser uma boa alternativa, o mesmo procedimento foi experimentado para um comitê de
árvores adaptadas, porém não podadas e combinadas por voto.Neste caso, como o algoritmo
é determinístico, foram feitas amostras porbaggingnos conjuntos de treinamento durante a
validação. Como a construção de cada árvore é ineficiente, apenas 15 foram construídas para
composição do comitê. Novamente, não foi feito ajuste de parâmetros e foram utilizadas as
mesmas configurações que produziram a tabela anterior.
A Tabela 4.9 mostra o erro médio obtido em cada problema. A primeira coluna contém,
novamente, o resultado da árvore aleatória sem adaptação temporal.
Tabela 4.9: Taxa de erro média (percentual) da combinação por baggingde árvores de decisão(sem poda) com métricas temporais. O melhor desempenho em cada problema é escrito emnegrito.
Num. Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.50 Words 35,36 39,23 37,90 38,34 38,2328,40 32,49 29,50 40,22
Adiac 33,29 40,98 44,17 40,46 42,25 37,77 34,82 36,36 47,11Beef 38,33 45,00 46,67 45,00 46,67 48,33 46,67 40,00 46,67CBF 1,08 1,40 1,08 0,97 0,86 0,86 0,97 0,54 0,75
CBF_tr 2,78 2,34 1,50 1,04 1,10 0,70 0,72 0,60 0,98Coffee 1,67 3,49 8,94 3,49 3,49 7,12 5,30 3,49 5,30
ECG200 13,50 15,00 14,00 13,00 1,00 15,00 13,50 14,00 15,50Face/All 8,71 12,98 11,73 12,49 10,40 5,963,20 3,91 13,78
Face/Four 5,42 16,96 14,35 14,27 15,14 10,675,34 7,98 5,34Fish 22,57 25,71 31,14 25,71 28,57 23,1416,86 17,71 26,57
Gun/Point 2,00 11,00 9,50 12,00 12,00 6,00 8,00 4,00 8,00Lighting 2 18,90 20,60 20,50 20,60 19,6717,17 21,30 21,30 21,37Lighting 7 32,83 38,47 30,79 31,48 32,1925,15 29,36 27,27 32,24Olive Oil 8,33 16,67 16,67 18,33 23,33 26,67 40,00 46,67 41,67
OSU Leaf 38,00 40,95 41,83 41,85 43,19 35,28 23,7423,29 43,87Pump 7,50 0,00 0,00 2,50 7,50 0,00 2,50 7,50 2,50
S. Leaf 12,36 17,51 17,78 18,22 18,22 16,1811,56 12,27 18,22S. Control 4,17 5,67 5,67 2,50 1,33 3,67 5,33 4,67 7,17
Trace 14,50 18,50 23,50 16,00 17,50 4,00 4,50 5,00 15,00Two Pat. 17,28 9,60 3,80 4,74 5,90 0,06 0,30 0,16 1,72
Wafer 0,21 1,19 1,13 0,28 1,03 1,02 0,35 0,88 0,31Yoga 6,46 9,18 9,24 9,79 9,49 18,00 17,97 17,30 11,52
Os resultados do comitê são visivelmente melhores do que o deuma árvore individual. Na
Tabela 4.9, apenas em sete oportunidades a versão original émelhor do que as adaptações.
Embora o melhor resultado apareça na maior parte dos casos entre as métricasDTW, LCSSe
distância de edição (13 casos dentre os 22), nestes experimentos não há o mesmo domínio destas
62
métricas, como nos experimentos anteriores. Esta dispersão dos resultados fica ainda mais clara
quando computados osvalores-pda comparação de cada métrica contra a versão convencional
da árvore aleatória (oTeste de Friedmanreporta probabilidade desprezível do resultado ocorrer,
supondo que todos classificadores são iguais). A Tabela 4.10mostra osvalores-pe a média dos
postos de cada classificador. A média dos postos do classificador de referência, neste caso, é
3,77.
Tabela 4.10:Valores-pe média dos postos da comparação de um comitê de árvores com adapta-ção temporal (combinadas porbagging) contra a versão não adaptada da árvore extremamentealeatória.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.Valor-p% 0,2 0,5 8,8 1,5 82,6 84,7 84,7 0,1
Média (ref. 3,77) 6,30 6,07 5,18 5,77 3,95 3,93 3,61 6,41
Os números da Tabela 4.10 mostram que em apenas 1 caso (LCSS) a média dos postos é
melhor do que a média do classificador de referência. Mesmo assim, a diferença não é sig-
nificante. Em vários casos, é possível dizer que o classificador de referência é superior com
significância de 5% (ajustado com oMétodo de Holm).
Dado que em apenas 7 casos o classificador de referência foi superior, é possível supor que
realizar o treinamento dobaggingde versões adaptadas e escolher a métrica com menor erro
no conjunto de treinamento é mais vantajoso do que usar a árvore aleatória original. Porém,
olhando os resultados da adaptação da árvore aleatória (commétricas), e dada a diferença de
desempenho das duas adaptações, fica claro que não vale a penainvestir na versão da árvore de
decisão apresentada nesta seção.
4.6 Discussão
Nesta seção é apresentado um resumo dos resultados experimentais das adaptações dos al-
goritmos de classificação. Quatro formas de classificação foram adaptadas por meio de medidas
de similaridade supostamente mais adequadas ao tipo de problema de interesse: o algoritmo do
vizinho mais próximo, o algoritmo de construção de árvore dedecisão com poda, a combinação
por baggingde árvores de decisão sem poda e a construção de árvores de decisão aleatórias.
A Tabela 4.11 mostra o melhor resultado obtido por cada formade classificação em cada pro-
blema, dentre as várias métricas experimentadas. O resumo na tabela não inclui a versão não
adaptada da árvore aleatória.
A primeira constatação é que a adaptação da árvore de decisãopodada e a combinação por
baggingdestas árvores (sem poda) não produzem bons classificadores. Há alguns outros fatores
63
Tabela 4.11: Resultado da melhor métrica em cada uma das quatro formas de classificaçãoavaliadas. Melhor resultado de cada problema em negrito.
Árv. Temp. Bag. Árv. Temp. Árv. Aleatória Viz. mais Próx.50 Words 50,28 28,40 23,32 18,90
Adiac 46,73 34,82 32,26 32,91Beef 46,67 40,00 35,00 28,33CBF 2,80 0,54 0,00 0,00
CBF_tr 6,48 0,60 0,08 0,08Coffee 1,82 3,49 0,00 0,00
ECG200 0,50 1,00 1,00 1,00Face/All 17,60 3,20 1,29 0,89
Face/Four 11,62 5,34 1,78 1,78Fish 26,29 16,86 11,43 8,86
Gun/Point 9,00 4,00 1,50 1,50Lighting 2 18,97 17,17 13,87 13,10Lighting 7 33,62 25,15 20,32 23,13Olive Oil 16,67 16,67 10,00 10,00
OSU Leaf 35,50 23,29 20,11 13,80Pump 0,00 0,00 0,00 0,00
S. Leaf 23,02 11,56 8,71 8,89S. Control 2,50 1,33 0,67 0,83
Trace 4,00 4,00 0,50 0,50Two Pat. 16,02 0,06 0,00 0,00
Wafer 1,12 0,28 0,13 0,07Yoga 19,39 9,18 4,27 2,97
que podem servir de justificativa para utilização destas técnicas, como a suposta facilidade de
interpretação das regras de classificação treinadas, porém, considerando apenas a precisão da
classificação, não há motivos para utilizar estes algoritmos nos problemas avaliados. Contra
estes algoritmos ainda há o fato deles serem os mais ineficientes dentre os experimentados.
A junção da árvore aleatória de Geurts, Ernst & Wehenkel (2006) com um teste para atribu-
tos temporais, baseado no método de divisão de Yamada et al. (2003), mostra-se uma alternativa
relevante. Por exemplo, Xi et al. (2006) afirmam que:
“Se o desejado é um classificador de séries temporais preciso, a combinação do
algoritmo do vizinho mais próximo comDTW é muito difícil de ser batida. [...]
1NN-DTWparece ser a melhor escolha para classificação de séries temporais.” (XI
et al., 2006, tradução nossa).
Se foram contrapostos os resultados da melhor métrica da árvore aleatória (na Tabela 4.11)
e os resultados do algoritmo do vizinho mais próximo com a métricaDTW (na Tabela 4.1), em
64
apenas 2 problemas a combinação1NN-DTWvenceria (e perderia em 15). Fica claro, portanto,
que a árvore aleatória com várias métricas (inclusiveDTW) é um forte concorrente, contra a
parceria1NN-DTW.
Considerando, porém, o melhor resultado do algoritmo do vizinho mais próximo com várias
métricas (Tabela 4.11), não há mais este domínio. Dentre os 22 problemas, em 4 o melhor
resultado foi obtido por uma árvore aleatória, em 8 pelo algoritmo do vizinho mais próximo e
em 10 por ambos. A partir destes resultados, não é possível dizer que um dos dois algoritmos
é absolutamente melhor, mas o vizinho mais próximo classifica pior em menos situações. É
possível, portanto, concluir que o algoritmo do vizinho mais próximo composto com algumas
métricas (em especial,DTW, LCSSe adistância de edição) é realmente muito difícil de ser
batido, mas a árvore aleatória consegue, geralmente, igualar o desempenho.
Dado que os algoritmos produzem resultados semelhantes, uma possível justificativa para
escolher entre eles é o desempenho computacional. A versão ingênua do algoritmo do vizinho
mais próximo usada nos experimentos não realiza nenhuma tarefa de treinamento e faz busca
exaustiva pelo vizinho mais próximo na etapa de consulta. A árvore aleatória implementada
é mais vantajosa, porque realiza um treinamento (eficiente), que acelera também a etapa de
consulta. Não é justo, porém, concluir que a árvore seja a melhor escolha por este motivo, dado
que existem métodos para acelerar o algoritmo do vizinho mais próximo (citados no Capítulo
2), que devem ser considerados em uma comparação justa sobredesempenho.
4.7 Indicação de consumidores de energia elétrica para ins-peção
O problema de indicação de consumidores de energia elétricapara inspeção surgiu da ne-
cessidade da concessionária do Estado do Espírito Santo de melhorar o processo de identificação
e fiscalização dos consumidores. O principal objetivo é diminuir os prejuízos financeiros com
o desvio irregular da energia distribuída e diminuir os gastos no processo de inspeção de con-
sumidores, que hoje é feito sem apoio computacional suficiente para otimização da escolha dos
clientes que devem ser submetidos a estas inspeções.
O combate ao desvio irregular de energia é majoritariamentefeito através de inspeções em
regiões geográficas onde é detectado alto índice de perdas nacomercialização da energia. Assim
que uma região é eleita para ser inspecionada, todas as unidades consumidoras são visitadas para
verificação de anomalias nas ligações elétricas. Este procedimento de inspeção é caro e pouco
eficiente porque visita diversas unidades sem evidências dedesvio.
65
O objetivo da concessionária de energia elétrica ao estudartécnicas de classificação é me-
lhorar o processo de seleção de unidades consumidoras para inspeção, aumentando a probabi-
lidade da descoberta de irregularidades. Para isto, a concessionária tem disponível informações
dos clientes armazenadas em bancos de dados, que foram disponibilizadas para tarefas de mi-
neração. Estes dados já têm sido usados no treinamento de classificadores e indicação de casos
para inspeções em campo, conforme descrito em Cometti & Varejao (2005). Até então, as in-
formações mais relevantes para a criação dos classificadores têm sido extraídas do histórico
de consumo mensal de energia dos consumidores e do históricode inspeções realizadas pela
concessionária.
Os dados das inspeções são compostos pela data da última visita e pelo resultado obtido.
Os resultados possíveis são agrupados em duas categorias: fraude ou normal. Os dados de
consumo são representados pelo mês e ano da medição e pelo valor apurado do consumo. A
partir destas informações, bases de dados com exemplos de consumidores inspecionados foram
criadas, contendo como características os valores dos últimos 24 meses de consumo antes da
última inspeção e o resultado obtido (a classe que se deseja inferir). O problema, assim es-
crito, torna-se um caso de classificação de séries temporaise os algoritmos apresentados neste
trabalho podem ser apropriados, se houver padrões a inferira partir destas séries.
O objetivo principal dos experimentos desta seção é aplicaros métodos de classificação
avaliados nas seções anteriores e comparar o resultado aos obtidos com a estratégia convenci-
onal de extração (e seleção) de características estáticas descrita em Cometti & Varejao (2005).
A comparação apresentada a seguir irá contrapor os algoritmos das seções anteriores, treinados
usando apenas a série temporal do consumo de energia, contraos mesmo algoritmos, treinados
a partir de informações estáticas triviais, extraídas das séries. Deseja-se saber se estas técnicas,
focadas na seleção de protótipos e na forma das curvas, se ajustam melhor ao problema. Além
disso, uma redebayesiana, disponível no sistemaWekade Witten & Frank (2005) e treinada
com a configuração padrão do sistema, foi usada como medida dereferência para avaliar a
relevância dos resultados.
Para realização dos experimentos foi criada uma única base de dados, formada por um
único atributo temporal - a série dos valores do consumo mensal de energia nos últimos 2 anos
antes da inspeção - de um conjunto de consumidores inspecionados recentemente em regiões
da periferia da Grande Vitória. No total, a base de dados contém 3.385 exemplos, sendo que
cada exemplo está marcado comoFraudeou Normal. A probabilidade a priori da classe mais
relevante (fraude) é de aproximadamente 16,5%.
Dado o desequilíbrio entre as classes e a maior importância da classe menos freqüente,
66
outras medidas são mais adequadas do que a taxa de erro para avaliar o desempenho dos classi-
ficadores. Por exemplo, as medidas de desempenho por classe,derivadas da matriz de confusão
(MONARD; BARANAUSKAS, 2002), podem ser combinadas para formação de uma métrica
que avalie a capacidade do classificador em relação à classe menos freqüente.
As medidas - precisão, que representa o percentual corretamente classificado dentre os
elementos apontados como sendo da classe de interesse; e especificidade, que representa o
percentual dos elementos da classe de interesse que foram corretamente classificados - são
independentes e o desejado é que as duas sejam maximizadas simultaneamente. A função de
mérito, neste caso, deve preferir classificadores que equilibrem o valor das duas medidas. Para
esta tarefa, Rijsbergen (1979) sugere uma função, normalmente conhecida comoF-measure,
que combina duas grandezas através da seguinte relação:
F(Ei,Pi) =PiEi
(1−α)Pi +αEi0≤ α ≤ 1, (4.6)
ondeEi representa a especificidade ePi a precisão da classei. O valor α é um fator para
ponderar as duas grandezas e dar maior importância a uma delas, de acordo com a necessidade.
Para os casos em queα = 0.5, a F-measureé igual à média harmônica entre a precisão e a
especificidade. Nas avaliações a seguir, o valorα foi configurado para 0.7, fazendo com que a
precisão tenha contribuição um pouco maior para a métrica.
Para formação da base de dados com características estáticas, foram extraídas das séries as
seguintes informações: média, desvio padrão, curtose, assimetria, maior diferença de consumo
entre dois meses consecutivos (percentual e absoluta), menor diferença de consumo entre dois
meses consecutivos (percentual e absoluta). Além disso, ostrês últimos valores do consumo
antes da inspeção foram incluídos na base e utilizados como características numéricas (não
temporais). Todos os resultados apresentados a seguir foram obtidos por validação cruzada
(com 10 conjuntos) e os parâmetros das métricas foram ajustados de acordo com o procedimento
descrito na Seção 4.1.
A Tabela 4.12 mostra a taxa de erro dos classificadores do vizinho mais próximo e árvore
aleatória treinados com as diversas métricas. Neste caso, as séries de consumo foram normali-
zadas para que ficassem com média igual a 0 e desvio padrão 1. O melhor resultado da árvore
aleatória na tabela ilustra o problema com o desbalanceamento das classes: o melhor resultado
foi obtido classificando a maioria dos exemplos na classe mais provável, conforme ficará claro
nas tabelas seguintes.
A Tabela 4.13 mostra os resultados dos mesmos métodos de classificação, porém gerados
com os dados sem normalização. Avaliando somente a taxa de erro não fica clara nenhuma
67
Tabela 4.12: Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho maispróximo avaliados com os dados normalizados.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.1NN 26,56 26,68 26,88 26,26 26,38 22,9621,00 23,60
Árv. Aleat. 16,90 16,66 22,07 22,81 17,02 16,95 16,84 16,75
diferença entre as duas tabelas, embora a taxa, na maioria dos casos, seja menor na Tabela
4.13. Nesta tabela também está escrita a taxa de erro dos classificadores treinados somente
com as características extraídas das séries. Como a taxa de erro é uma medida secundária neste
problema com classes desbalanceadas, nenhuma conclusão justa pode ser obtida a partir destes
resultados.
Tabela 4.13: Taxa de erro média (percentual) da árvore aleatória e do algoritmo do vizinho maispróximo avaliados com os dados não normalizados.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.Extração1NN 23,19 22,78 24,82 24,55 23,25 21,6021,48 21,48 24,67
Árv. Aleat. 16,87 16,90 20,92 19,38 16,7816,63 16,69 16,63 17,76
As próximas tabelas listam os valores daF-measuremédia obtidos pelos classificadores
durante a validação cruzada. Ao contrário da taxa de erro, aF-measureé uma medida a ser
maximizada. Os melhores resultados nas tabelas, portanto,são os que apresentarem maior
valor percentual.
A Tabela 4.14 mostra aF-measuremédia obtida pelos classificadores com as métricas a
partir dos dados normalizados. Nesta tabela é interessantenotar que o problema com a menor
taxa de erro da Tabela 4.12 é um dos piores pela avaliação com aF-measure. Além disto, é
possível concluir que a árvore aleatória classifica muito pior do que o algoritmo do vizinho
mais próximo neste problema.
Tabela 4.14:F-measuremédia (percentual) da árvore aleatória e do algoritmo do vizinho maispróximo avaliados com os dados normalizados.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.1NN 23,74 25,43 23,47 23,54 22,69 23,32 24,67 22,82
Árv. Aleat. 13,69 10,20 14,88 18,10 13,69 8,05 11,37 7,10
A Tabela 4.15 mostra os resultados dos mesmos classificadores, obtidos a partir dos dados
sem nenhuma normalização. A tabela mostra também aF-measuredos classificadores treinados
com as características extraídas das séries. No caso da árvore aleatória, o melhor resultado foi
obtido a partir destas características.
Ainda sobre os resultados nas tabelas 4.14 e 4.15, em apenas alguns casos (com a árvore
68
Tabela 4.15:F-measuremédia (percentual) da árvore aleatória e do algoritmo do vizinho maispróximo avaliados com os dados não normalizados.
Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.Extração1NN 24,65 28,63 24,14 25,71 27,62 25,72 25,29 27,59 27,18
Árv. Aleat. 21,25 16,63 18,84 21,07 16,84 1,56 4,36 0,00 21,98
aleatória) o resultado não foi melhor com os dados sem normalização. Isto mostra que há
algum padrão a reconhecer nos dados relacionado ao valor médio e à dispersão do consumo.
Além disto, considerando um método que classifique os exemplos de maneira completamente
aleatória, porém assinalando a classefraudepara 16,5% (probabilidade a priori) dos exemplos,
o valor esperado daF-measuredeste classificador seria de aproximadamente 20,65%. Ou seja,
a maior parte dos resultados da árvore aleatória, neste problema, são piores do que os de um
classificador que retira dos dados apenas a informação sobrea probabilidade a priori das classes.
A partir destes resultados, e considerando apenas os dados sem normalização, deseja-se tes-
tar as hipóteses nulas de que os dois resultados obtidos com características extraídas são iguais
aos dois melhores resultados obtidos com métricas de similaridade - distância Manhattan, no
caso do algoritmo do vizinho mais próximo, e distância Euclidiana, no caso da árvore aleatória.
Caso não seja possível rejeitar estas hipóteses, a adaptação não trouxe ganho algum em relação
aos algoritmos originais. Além disto, deseja-se também testar a hipótese nula de que um algo-
ritmo bayesianoclassifica da mesma forma que o algoritmo do vizinho mais próximo com a
distância Manhattan, opção que obteve o melhor resultado neste problema.
Para testar as hipóteses foi utilizado oteste-t corrigido para dados pareados. Na primeira
comparação, a média das diferenças entre asF-measuresdo algoritmo do vizinho mais próximo
com a distância Manhattan e do mesmo algoritmo com as características estáticas é 1,45% e
o desvio padrão 6,49%. A partir destes valores, o teste reporta 63,76% de probabilidade do
resultado experimental acontecer, se a hipótese nula for verdadeira. Portanto, não há evidências
de que exista diferença entre as duas abordagens.
No caso da árvore aleatória, a média das diferenças entre o melhor resultado com métricas
e o resultado com características extraídas é 0,73% e o desvio padrão 11,32%. De acordo com
o teste-t corrigido, há 89,12% de probabilidade deste resultado ocorrer e, também neste caso,
não há evidências de que exista diferença entre as duas abordagens.
O classificadorbayesianodo sistemaWeka, com as características extraídas, obteve taxa de
erro média de 22,01% eF-measuremédia de 38,60% com desvio padrão de 3,34%. O valor
é bem maior do que o melhor obtido pelos demais classificadores (28,63%). Oteste-treporta
apenas 0,45% de probabilidade do resultado ocorrer: é bastante seguro rejeitar a hipótese nula
69
(já considerando os ajustes pelas múltiplas comparações) e, portanto, há diferença significante
entre os algoritmos.
As Tabelas 4.16 e 4.17 mostram a matriz de confusão dos dois classificadores da última
comparação. O classificadorbayesianoerra 2 casos normais a mais do que o vizinho mais
próximo com a métrica, porém acerta mais 87 casos de fraudadores.
Tabela 4.16: Matriz de confusão do algoritmo do vizinho maispróximo usando a distânciaManhattan.
PreditaN F
Real N 2.392 434F 401 158
Tabela 4.17: Matriz de confusão do classificador bayesiano com características extraídas.Predita
N FReal N 2.390 436
F 314 245
A conclusão final desta seção é que, no problema de seleção de consumidores de energia
elétrica para inspeção, apesar da principal informação disponível (consumo mensal) ser uma
série temporal, não há um padrão forte relacionado à forma desta série e, por isto, os algoritmos
com medidas de similaridade mais adequadas a dados temporais não têm desempenho satisfató-
rio. Apesar das versões com métricas dispensarem o conhecimento requerido para a criação das
características estáticas, somente alguns atributos triviais já bastam para que um classificador
convencionalsupere desempenho destas versões, neste problema.
70
5 Conclusões
Este trabalho apresentou um estudo experimental de métodosde classificação em problemas
com atributos temporais. Das várias formas possíveis de tratamento deste tipo de atributo, foram
estudados apenas algoritmos de classificação que manipulamdiretamente as séries e classificam
com base em medidas de similaridade entre seqüências.
No caso da adaptação do algoritmo do vizinho mais próximo, pelo menos duas medidas
avaliadas (DTW e distância de edição) parecem ser sistematicamente melhores do que a usada
na versão original do algoritmo. As demais medidas não foramconsistentemente melhores,
mas em alguns problemas apresentaram bons resultados. A proposta de combinação de várias
métricas neste algoritmo teve resultado inferior ao melhorobtido apenas com uma métrica,
provavelmente porque as medidas são muito correlacionadase porque houve super-ajuste no
treinamento.
A avaliação das adaptações de árvores de decisão mostrou queapenas uma única árvore (po-
dada) não tem desempenho competitivo. O algoritmo de construção de árvores extremamente
aleatórias, por outro lado, produz classificadores com desempenho comparável ao do algoritmo
do vizinho mais próximo. No caso da árvore aleatória, três métricas (LCSS, DTW e distância
de edição) geraram classificadores consistentemente melhores do quea versão não adaptada
do algoritmo. As demais medidas classificaram melhor apenasem alguns casos isolados. A
combinação de várias métricas na árvore aleatória foi mais bem sucedida do que a combinação
no vizinho mais próximo, mas, mesmo assim, o desempenho foi geralmente inferior ao obtido
pela melhor métrica em cada problema.
Por fim, os testes no problema real de seleção de consumidoresde energia elétrica para
inspeção não produziram bons resultados. Isso sugere que não há padrão relacionado ao formato
das séries a descobrir nos dados. Os resultados com características estáticas extraídas das séries,
apesar de melhores, também não foram bons, o que evidencia a dificuldade de produzir bons
classificadores nesse problema.
71
5.1 Trabalhos futuros
A abrangência da avaliação experimental sobre classificação com características temporais
apresentada neste trabalho é visivelmente limitada. Em primeiro lugar, porque apenas alguns
poucos tipos de algoritmos de classificação foram considerados. Além disto, todos foram cons-
truídos a partir da mesma idéia de classificação por comparação com “modelos”, através de
alguma medida de similaridade.
Apesar de várias métricas de similaridade terem sido avaliadas, há um grande número de
medidas propostas que podem, eventualmente, ser melhores do que as estudadas, pelo menos em
alguns problemas específicos. Mesmo que apenas algumas poucas medidas avaliadas durante a
elaboração deste trabalho tenham sido constantemente melhores do que a trivial (Euclidiana), e
apesar da verificação de Keogh & Kasetty (2003) enumerar várias que também não a superam,
há, ainda, outras métricas que merecem análise mais apurada. Por exemplo, tanto Savary (2002)
quanto Antunes & Oliveira (2001) citam formas de criar modelos descritores das séries usando
métodos probabilísticos comoCadeias Ocultas de Markov(HMM - Hidden Markov Models) e
calcular a similaridade entre os exemplos através de distâncias computadas entre os modelos.
Abou-Moustafa, Cheriet & Suen (2004) e Ge & Smyth (2000) implementam classificadores
de séries temporais usando tal abordagem. Dado que a classificação de séries temporais tem
uma relação forte com o problema de reconhecimento de voz, e considerando que este tipo de
classificação é usado em reconhecimento de voz com sucesso (assim comoDTW), é possível
que bons classificadores possam ser construídos também com esta abordagem.
Ainda em relação aos algoritmos avaliados, outros métodos,além das árvores de decisão
e do algoritmo do vizinho mais próximo, podem ser apropriados a problemas com dados tem-
porais e também precisam ser considerados. Por exemplo, asRedes Bayesianas Dinâmicas,
descritas por Murphy (2002), que estendem asRedes Bayesianas“convencionais” e englobam
asCadeias Ocultas de Markov, não foram experimentadas. Alguns autores, como Bahlmann,
Haasdonk & Burkhardt (2002), mostram adaptações deSuport Vector Machinesque se utilizam
de medidas comoDTWno problema de classificação de caracteres manuscrito que, assim como
reconhecimento de voz, é intimamente ligado ao problema de classificação de séries temporais.
Sobre os algoritmos implementados e avaliados neste trabalho, os resultados obtidos com
a árvore aleatória adaptada e com o algoritmo do vizinho maispróximo com métricas de si-
milaridade foram bastante satisfatórios. Ambos podem ser facilmente estendidos para suportar
atributos temporais multidimensionais. Desta maneira, será possível reproduzir os resultados
experimentais de Yamada et al. (2003) e verificar se, nesta situação, a árvore de decisão proposta
72
pelos autores é um pouco mais competitiva do que em problemasunidimensionais.
Além disso, os algoritmos implementados foram reconhecidamente bem sucedidos clas-
sificando unicamente através da comparação de exemplos. Embora, exceto no problema de
indicação de consumidores de energia para inspeção, não tenha sido experimentada a estratégia
de extração de características estáticas, é certo que esta estratégia seria bem sucedida, se fosse
possível desenhar características especiais para cada problema. Uma possível linha de pesquisa
é investigar a criação de classificadores que combinem características extraídas das séries com
classificação baseada em exemplos (ou modelos).
A combinação de várias métricas em um mesmo classificador nãose mostrou promissora
nos experimentos do Capítulo 4, especialmente no caso do vizinho mais próximo. Se novas
medidas de similaridade forem incluídas ao sistema de classificação, novas avaliações expe-
rimentais deverão ser realizadas. Um método mais eficiente de combinação das métricas é
necessário para que seja possível também ajustar os parâmetros das medidas.
No caso do algoritmo do vizinho mais próximo, ainda será preciso investir em formas de
integração do ajuste de parâmetros e da combinação (ou escolha) de métricas às estruturas
de dados para aceleração do algoritmo. No caso da árvore aleatória, o ajuste de parâmetros
não é problema, dada a eficiência do método de treinamento. É preciso, porém, avaliar outras
heurísticas para escolha das métricas nos nós da árvore, já que a apresentada no Capítulo 3 não
conseguiu repetir o desempenho da melhor métrica individual.
73
Referências Bibliográficas
ABOU-MOUSTAFA, K. T.; CHERIET, M.; SUEN, C. Y. Classification of time-seriesdata using a generative/discriminative hybrid. In:IWFHR ’04: Proceedings of the NinthInternational Workshop on Frontiers in Handwriting Recognition (IWFHR’04). Washington,DC, USA: IEEE Computer Society, 2004. p. 51–56. ISBN 0-7695-2187-8.
AGRAWAL, R.; FALOUTSOS, C.; SWAMI, A. Efficient Similarity Search in SequenceDatabases.Proceedings of the 4th International Conference on Foundations of DataOrganization and Algorithms, Chicago, USA, p. 69–84, 1993.
AGRAWAL, R. et al. Fast Similarity Search in the Presence of Noise, Scaling, and Translationin Time-Series Databases.Proceedings of the 21th International Conference on Very LargeData Bases, p. 490–501, 1995.
ANTUNES, C. M.; OLIVEIRA, A. L. Temporal Data Mining: An Overview. In: Proceedingsof the Workshop on Temporal Data Mining. San Francisco, EUA: [s.n.], 2001. KnowledgeDiscovery and Data Mining (KDD 01).
BAHLMANN, C.; HAASDONK, B.; BURKHARDT, H. On-line handwriting recognitionwith support vector machines: A kernel approach. In:IWFHR ’02: Proceedings of the EighthInternational Workshop on Frontiers in Handwriting Recognition (IWFHR’02). Washington,DC, USA: IEEE Computer Society, 2002. p. 49. ISBN 0-7695-1692-0.
BENTLEY, J. L. Multidimensional binary search trees used for associative searching.Communications of the ACM, ACM Press, New York, NY, USA, v. 18, n. 9, p. 509–517, 1975.ISSN 0001-0782.
BOZKAYA, T.; YAZDANI, N.; ÖZSOYOGLU, M. Matching and Indexing Sequences ofDifferent Lengths. In:CIKM ’97: Proceedings of the sixth international conference onInformation and knowledge management. New York, NY, USA: ACM Press, 1997. p. 128–135.ISBN 0-89791-970-X.
BREIMAN, L. Bagging Predictors.Machine Learning, Kluwer Academic Publishers,Hingham, MA, USA, v. 24, n. 2, p. 123–140, 1996. ISSN 0885-6125.
BREIMAN, L. Random forests.Machine Learning, Kluwer Academic Publishers, Hingham,MA, USA, v. 45, n. 1, p. 5–32, 2001. ISSN 0885-6125.
BREIMAN, L. et al.Classification and Regression Trees. New York, N.Y: Chapman & Hall,1984. ISBN 0412048418.
CHAN, K. pong; FU, A. W.-C. Efficient time series matching by wavelets. In:ICDE ’99:Proceedings of the 15th International Conference on Data Engineering. Washington, DC,USA: IEEE Computer Society, 1999. p. 126. ISBN 0-7695-0071-4.
74
COMETTI, E. S.; VAREJAO, F. M.Melhoramento da identificação de perdas comerciaisatravés da análise computacional inteligente do perfil de consumo e dos dados cadastraisde consumidores. Vitória, Brasil, 2005. Relatório final de projeto de P&D ESCELSA/Aneel,ciclos 2003/2004.
COVER, T.; HART, P. E. Nearest Neighbor Pattern Classification. IEEE Transactions onInformation Theory, v. 13, n. 1, p. 21–27, Jan 1967.
DAUBECHIES, I.Ten Lectures on Wavelets. [S.l.]: SIAM, 1992. (CBMS-NSF Reg. Conf.Series in Applied Math.).
DEGROOT, M. H.; SCHERVISH, M. J.Probability and statistics. 3nd. ed. [S.l.]: AddisonWesley, 2001. ISBN 0321240753.
DEMSAR, J. Statistical Comparisons of Classifiers over Multiple Data Sets.Journal ofMachine Learning Research, v. 7, n. 1, p. 1–30, 2006.
DEVIJVER, P. A.; KITTLER, J.Pattern Recognition: A Statistical Approach. London:Prentice Hall, 1982.
DIETTERICH, T. G. Approximate Statistical Test For Comparing Supervised ClassificationLearning Algorithms.Neural Computation, v. 10, n. 7, p. 1895–1923, 1998.
DUDA, R. O.; HART, P. E.; STORK, D. G.Pattern Classification. 2nd. ed. New York: JohnWiley and Sons, 2001.
FREIDMAN, J. H.; BENTLEY, J. L.; FINKEL, R. A. An Algorithm for Finding Best Matchesin Logarithmic Expected Time.ACM Transactions on Mathematical Software (TOMS), ACMPress, New York, NY, USA, v. 3, n. 3, p. 209–226, 1977. ISSN 0098-3500.
GE, X.; SMYTH, P. Deformable markov model templates for time-series pattern matching.In: KDD ’00: Proceedings of the sixth ACM SIGKDD international conference on Knowledgediscovery and data mining. New York, NY, USA: ACM Press, 2000. p. 81–90. ISBN1-58113-233-6.
GEURTS, P.Contributions to decision tree induction: bias/variance tradeoff and time seriesclassification. Tese (Doutorado) — Department of Electrical Engineering and ComputerScience, University of Liege, Belgium, May 2002.
GEURTS, P.; ERNST, D.; WEHENKEL, L. Extremely randomized trees.Machine Learning,Kluwer Academic Publishers, Hingham, MA, USA, v. 63, n. 1, p.3–42, 2006. ISSN0885-6125.
GUSFIELD, D.Algorithms on strings, trees, and sequences: computer science andcomputational biology. New York, NY, USA: Cambridge University Press, 1997. ISBN0-521-58519-8.
GUTTMAN, A. R-trees: a dynamic index structure for spatial searching. In:SIGMOD ’84:Proceedings of the 1984 ACM SIGMOD international conference on Management of data.New York, NY, USA: ACM Press, 1984. p. 47–57. ISBN 0-89791-128-8.
HAMMING, R. W. Error detecting and error correcting codes.Bell System Technical Journal,v. 29, n. 2, p. 147–160, 1950.
75
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco, CA, USA:Morgan Kaufmann Publishers Inc., 2001. ISBN 1558604898.
KEOGH, E.; KASETTY, S. On the Need for Time Series Data MiningBenchmarks: A Surveyand Empirical Demonstration.Data Mining and Knowledge Discovery, Springer, v. 7, n. 4, p.349–371, 2003.
KEOGH, E.; RATANAMAHATANA, C. A. Exact indexing of dynamic time warping.Knowl.Inf. Syst., Springer-Verlag New York, Inc., New York, NY, USA, v. 7, n. 3, p. 358–386, 2005.ISSN 0219-1377.
KEOGH, E. et al.The UCR Time Series Classification/Clustering. 2006.Http://www.cs.ucr.edu/˜eamonn/time_series_data.
KOHAVI, R.; LANGLEY, P.; YUN, Y. The utility of feature weighting in nearest-neighboralgorithms. In:9th European Conference on Machine Learning. Prague, Czech Republic:Springer-Verlag, 1997.
LEVENSHTEIN, V. I. Binary Codes Capable of Correcting Deletions, Insertions andReversals.Soviet Physics Doklady, v. 10, n. 8, p. 707–710, Feb 1966.
LIGTERINGEN, R. et al. Machine diagnostics by neural networks: experimental setup. In:Proceedings of ASCI97. Heijen, The Netherlands: [s.n.], 1997. p. 185–190.
LIN, J. et al. A symbolic representation of time series, withimplications for streamingalgorithms. In:DMKD ’03: Proceedings of the 8th ACM SIGMOD workshop on Researchissues in data mining and knowledge discovery. New York, NY, USA: ACM Press, 2003. p.2–11.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina. In:Sistemas Inteligentes. 1. ed. Barueri, SP: Manole, 2002. cap. 04, p. 35–53.
MURPHY, K. P.Dynamic bayesian networks: representation, inference andlearning. Tese(Doutorado) — UC Berkeley, Computer Science Division, Jul 2002. Chair-Stuart Russell.
MöRCHEN, F.Time series feature extraction for data mining using DWT andDFT. [S.l.], 2003.Technical Report, Department of Mathematics and Computer Science Philipps-UniversityMarburg.
NADEAU, C.; BENGIO, Y. Inference for the Generalization Error. Machine Learning,Springer, v. 52, n. 3, p. 239–281, 2003.
NANOPOULOS, A.; ALCOCK, R.; MANOLOPOULOS, Y. Feature-based Classification ofTime-series Data. Nova Science Publishers, Inc., Commack,NY, USA, p. 49–61, 2001.
PRECHELT, L. A study of experimental evaluations of neural network learning algorithms:Current research practice.Neural Networks, v. 9, n. 3, p. 457–462, Apr 1996.
QUINLAN, J. R. C4.5: programs for machine learning. San Francisco, CA, USA: MorganKaufmann Publishers Inc., 1993. ISBN 1-55860-238-0.
RIJSBERGEN, C. van.Information Retrieve. 2. ed. London: Butterworth, 1979.
76
RODDICK, J. F.; SPILIOPOULOU, M. A survey of temporal knowledge discovery paradigmsand methods.IEEE Transactions on Knowledge and Data Engineering, v. 14, n. 4, p. 750–767,Jul/Aug 2002.
SAKOE, H.; CHIBA, S. Dynamic Programming Algorithm Optimization for Spoken WordRecognition.IEEE Transactions on Acoustics, Speech, and Signal Processing, v. 26, n. 1, p.43–49, Feb 1978.
SALZBERG, S. L. On Comparing Classifiers: Pitfalls to Avoid and a RecommendedApproach.Data Mining and Knowledge Discovery, Kluwer Academic Publishers, Hingham,MA, USA, v. 1, n. 3, p. 317–328, 1997.
SAVARY, L. Notion of Similarity in (Spatio-)Temporal Data Mining. In: ECAI’02 Workshopon Knowledge Discovery from (Spatio-)Temporal Data. [S.l.: s.n.], 2002. p. 63–71.
SCHAPIRE, R. E. The Strength of Weak Learnability.Machine Learning, Kluwer AcademicPublishers, Hingham, MA, USA, v. 5, n. 2, p. 197–227, 1990. ISSN 0885-6125.
SHESKIN, D. J.Handbook of Parametric and Nonparametric Statistical Procedures. 2nd. ed.[S.l.]: Chapman & Hall/CRC, 2000.
STRUZIK, Z. R.; SIEBES, A. The haar wavelet transform in the time series similarityparadigm.Lecture Notes in Computer Science, v. 1704, p. 12–22, Jan 1999.
THEODORIDIS, S.; KOUTROUMBAS, K.Pattern Recognition. Amsterdam: Else-vier/Academic Press, 2006. ISBN 0123695317.
UHLMANN, J. K. Satisfying general proximity/similarity queries with metric trees.Information processing letters, Elsevier Science, v. 40, n. 4, p. 175–179, 1991.
WITTEN, I. H.; FRANK, E.Data Mining: Practical Machine Learning Tools and Techniques.2nd. ed. [S.l.: s.n.], 2005.
WU, Y.-L.; AGRAWAL, D.; ABBADI, A. E. A comparison of dft and dwt based similaritysearch in time-series databases. In:CIKM ’00: Proceedings of the ninth internationalconference on Information and knowledge management. New York, NY, USA: ACM Press,2000. p. 488–495. ISBN 1-58113-320-0.
XI, X. et al. Fast time series classification using numerosity reduction. In: ICML ’06:Proceedings of the 23rd international conference on Machine learning. New York, NY, USA:ACM Press, 2006. p. 1033–1040. ISBN 1-59593-383-2.
YAMADA, Y. et al. Decision-tree Induction from Time-seriesData Based on a Standard-example Split Test. In:Proceedings of the 12th International Conference on Machine Learning.[S.l.: s.n.], 2003. p. 840–847.
YAO, Z.; RUZZO, W. L. A Regression-based K nearest neighbor algorithm for gene functionprediction from heterogeneous data.BMC Bioinformatics, v. 7, n. Suppl 1, p. S11, Mar 2006.
77
APÊNDICE A -- Alguns experimentos adicionais
Neste apêndice são exibidos alguns resultados complementares aos apresentados no Capí-
tulo 4. Os dados de cada problema, disponíveis em (KEOGH et al., 2006), estão divididos em
dois arquivos: um para o treinamento e outro para o teste de validação. Para realizar os experi-
mentos apresentados no Capítulo 4, os dois conjuntos de dados foram fundidos e os exemplos
embaralhados antes da execução da validação cruzada. As tabelas A.1, A.2 e A.3 mostram o
resultado da classificação usando a divisão original dos dados.
Tabela A.1: Taxa de erro do algoritmo do vizinho mais próximocom métricas de similaridade.Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.
50 Words 36.92 33.19 34.29 34.29 23.52 20.4418.68 32.53Adiac 38.88 40.15 40.15 39.64 39.13 49.87 50.38 50.38Beef 33.33 36.67 33.33 33.33 30.00 26.6723.33 33.33CBF 14.78 11.11 3.22 6.78 0.22 3.22 3.11 11.11
Coffee 0.00 3.57 0.00 3.57 0.00 3.57 0.00 3.57ECG200 12.00 11.00 13.00 2.00 12.00 11.00 10.00 12.00Face/All 28.64 27.87 28.58 28.0519.23 19.94 19.88 28.17
Face/Four 21.59 15.91 19.32 6.82 11.36 3.41 6.82 9.09Fish 21.71 20.57 21.71 21.71 16.57 8.00 7.43 24.00
Gun/Point 8.67 4.67 8.67 10.00 8.67 3.33 2.67 6.00Lighting 2 24.59 18.03 29.51 19.67 9.84 26.23 21.31 22.95Lighting 7 42.47 28.77 36.99 35.62 28.77 34.25 34.25 30.14Olive Oil 13.33 16.67 16.67 16.67 13.33 53.33 53.33 53.33
OSU Leaf 48.35 45.04 48.35 49.59 38.02 23.1419.42 47.11S. Leaf 21.12 21.12 18.40 17.76 15.36 9.44 11.04 20.00
S. Control 12.00 12.00 1.00 1.00 1.33 4.00 4.00 17.67Trace 24.00 24.00 26.00 26.00 1.00 9.00 5.00 24.00
Two Pat. 9.33 3.88 4.60 5.93 0.00 0.00 0.00 1.88Wafer 0.45 0.47 0.44 0.44 0.41 0.20 0.26 1.01Yoga 16.97 17.10 17.77 17.43 15.6713.43 13.93 19.93
Por terem usado validação cruzada ao invés de divisão percentual fixa, os resultados do
Capítulo 4 são uma estimativa mais confiável do erro médio de classificação. Os resultados
78
deste apêndice, porém, podem ser diretamente comparados aos listados no repositório do qual
é possível obter os dados.
A Tabela A.1 mostra o erro obtido no conjunto de validação pelo algoritmo do vizinho
mais próximo com as métricas de similaridade. Os valores dascolunas referentes à distância
Euclidiana e àDTW devem coincidir com os reportados por Keogh et al. (2006). Emalguns
casos, há diferenças insignificantes, provavelmente ocasionadas por detalhes da implementação
do ajuste de parâmetros.
As Tabelas A.2 e A.3 mostram os resultados, nos mesmos problemas, da árvore de decisão
aleatória e dobaggingde árvores de decisão convencionais adaptadas aos dados temporais. Em
relação aos resultados do Capítulo 4, o erro apurado para as árvores com esta divisão fixa parece
estar ainda mais distante do erro do algoritmo do vizinho mais próximo.
Este comportamento era esperado, especialmente no caso da árvore aleatória - Geurts, Ernst
& Wehenkel (2006) citam que a técnica é mais eficiente para conjuntos maiores porque nestas
situações o viés do procedimento de treinamento é reduzido.Esta é, inclusive, mais uma justifi-
cativa para a utilização do conjunto completo dos dados no treinamento de cada uma das árvores
aleatórias, e não amostras obtidas pelo processo debagging. A divisão percentual original dos
dados reserva, quase sempre, uma porcentagem menor para o treinamento. Isto faz com que
os resultados das árvores sejam mais afetados do que o resultado do algoritmo do vizinho mais
próximo.
79
Tabela A.2: Taxa de erro da árvore aleatória com métricas temporais.Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.
50 Words 34.95 34.07 34.51 34.29 27.25 27.9127.03 34.73Adiac 40.67 43.48 41.69 40.92 38.88 36.5735.29 44.25Beef 53.33 40.00 43.33 46.6736.67 40.00 36.67 43.33CBF 7.56 6.11 6.44 7.78 0.44 4.11 6.89 10.78
Coffee 0.00 7.14 3.57 3.57 7.14 0.00 7.14 3.57ECG200 10.00 14.00 14.00 2.00 12.00 13.00 7.00 17.00Face/All 30.77 31.42 30.65 31.7219.11 22.78 19.76 32.13
Face/Four 26.14 29.55 26.14 14.77 18.18 6.82 6.82 22.73Fish 24.00 31.43 25.71 25.71 24.00 14.8613.71 22.29
Gun/Point 11.33 11.33 13.33 12.00 3.33 9.33 8.67 22.00Lighting 2 29.51 22.95 21.31 19.6714.75 21.31 19.67 22.95Lighting 7 35.62 31.51 30.14 30.1421.92 28.77 27.40 34.25Olive Oil 13.33 20.00 16.67 16.67 20.00 66.67 66.67 66.67
OSU Leaf 48.35 47.93 50.00 47.11 41.32 31.8227.27 48.35S. Leaf 16.48 16.00 16.64 16.16 13.28 9.44 9.76 14.56
S. Control 5.33 6.00 0.67 1.00 1.67 3.33 3.00 6.33Trace 22.00 30.00 21.00 24.00 2.00 14.00 6.00 27.00
Two Pat. 16.30 8.73 10.83 10.98 0.03 1.08 0.28 3.78Wafer 0.78 0.50 0.55 0.49 0.60 0.36 0.62 0.42Yoga 17.77 18.80 19.50 18.40 16.7715.87 16.80 20.83
Tabela A.3: Taxa de erro da combinação porbaggingde árvores de decisão (sem poda).Euc. Man. Fou. Wav. DTW E.D. LCSS Ham.
50 Words 41.10 41.54 42.64 39.5630.77 35.39 33.19 42.42Adiac 47.57 45.52 47.06 47.06 39.1338.62 40.92 49.62Beef 53.33 50.00 53.33 40.00 46.67 40.00 43.33 40.00CBF 15.67 12.22 7.67 6.44 9.22 13.56 13.11 13.11
Coffee 10.71 21.43 10.71 10.71 17.86 14.29 10.71 14.29ECG200 13.00 12.00 13.00 0.00 13.00 14.00 14.00 16.00Face/All 38.17 38.34 38.82 35.74 26.6321.83 22.43 38.34
Face/Four 26.14 44.32 38.64 36.36 25.0010.23 28.41 28.41Fish 32.00 36.00 32.00 32.00 27.4315.43 17.71 31.43
Gun/Point 18.67 21.33 19.33 19.33 11.33 15.339.33 16.00Lighting 2 27.87 29.51 22.95 21.3116.39 22.95 26.23 24.59Lighting 7 38.36 31.51 36.99 26.03 27.40 32.88 30.14 35.62Olive Oil 16.67 23.33 13.33 13.33 36.67 33.33 40.00 40.00
OSU Leaf 49.17 48.35 48.35 49.59 49.59 38.8437.19 52.07S. Leaf 18.88 23.20 20.00 22.24 19.5212.64 14.88 20.64
S. Control 10.00 10.00 2.00 2.00 1.67 8.33 6.00 7.67Trace 33.00 41.00 31.00 35.00 5.00 7.00 18.00 23.00
Two Pat. 27.25 18.45 21.65 23.33 0.83 1.58 1.43 9.53Wafer 1.62 1.57 0.99 1.09 1.25 1.40 1.06 1.35Yoga 18.90 21.33 19.03 19.20 19.60 19.83 19.47 24.33
Livros Grátis( http://www.livrosgratis.com.br )
Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas
Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo