prognóstico de doentes com esclerose lateral amiotrófica … · 3.7 exemplo da construção de...

80
Prognóstico de Doentes com Esclerose Lateral Amiotrófica usando Modelos Gráficos Probabilísticos José Jorge Dos Reis Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores Orientadoras: Doutora Sara Alexandra Cordeiro Madeira Doutora Alexandra Sofia Martins de Carvalho Júri Presidente: Doutor Luís Eduardo Teixeira Rodrigues Orientadora: Doutora Sara Alexandra Cordeiro Madeira Vogal: Doutor Pedro Filipe Zeferino Tomás Novembro 2014

Upload: others

Post on 08-Nov-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Prognóstico de Doentes com Esclerose LateralAmiotrófica usando Modelos Gráficos Probabilísticos

José Jorge Dos Reis

Dissertação para obtenção do Grau de Mestre emEngenharia Informática e de Computadores

Orientadoras: Doutora Sara Alexandra Cordeiro MadeiraDoutora Alexandra Sofia Martins de Carvalho

JúriPresidente: Doutor Luís Eduardo Teixeira RodriguesOrientadora: Doutora Sara Alexandra Cordeiro MadeiraVogal: Doutor Pedro Filipe Zeferino Tomás

Novembro 2014

Page 2: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de
Page 3: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Agradecimentos

Quero agradecer ao meu pai, mãe e irmã por terem estado sempre presentes e terem sempre

acreditado em mim.

À minha namorada por me ter motivado nos momentos mais difíceis e ter sido sempre muito

compreensiva nos momentos em que não pude dar-lhe a atenção que ela merece.

Quero também agradecer à Professora Sara Madeira e à Professora Alexandra Carvalho por

me terem orientado sempre da melhor forma e me terem dado as suas sugestões no decorrer do

trabalho.

Ao André por gentilmente me ter fornecido os dados e dado uma explicação sobre o Weka.

Finalmente, ao Professor Pedro Tomás, o autor do modelo utilizado nesta tese.

Page 4: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de
Page 5: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Abstract

Amyotrophic Lateral Sclerosis (ALS) is a fatal neurodegenerative disease characterized by

progressive muscle weakness caused by the degeneration of motor neurons. The main cause

of death in patients with ALS is related with respiratory insufficiency caused by weakness of the

respiratory muscles. In this context, and although ALS has no cure it is currently known that the

use of non-invasive ventilation techniques (NIV) improves patients’ condition during treatment.

The goal of this thesis is to develop a prognostic method based on dynamic probabilistic

graphical models, to predict hypoventilation in patients with ALS, considering time windows of

90, 180 and 365 days.

Data from 517 ALS patients followed-up at Hospital de Santa Maria in Lisbon were analyzed.

The dataset included 29 features plus the variable of class which is binary and shows whether the

patient needs NIV or does not need NIV. Three classifiers based on dynamic Bayesian Networks

were implemented, differing the strategy used to learn conditional Bayes network. The validation

of classifiers was performed using 10-fold-cross-validation. A Software was also developed for test

the classifiers. The best of the three classifiers achieved 93.9%, 92.6% and 94.3% of accuracy,

sensibility and specificity, respectively.

Keywords

Amyotrophic Lateral Sclerosis, Data Mining, Probabilistic Grapical Models, Prognosis, Classi-

fication, Classifier based on Dynamic Bayes Network.

iii

Page 6: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de
Page 7: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Resumo

A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada por

um enfraquecimento muscular progressivo causado pela degeneração dos neurónios motores. A

principal causa de morte dos doentes de ELA resulta das complicações respiratórias causadas

pelo enfraquecimento dos músculos respiratórios. Apesar de a ELA ser uma doença atualmente

incurável, sabe-se que a aplicação de técnicas de ventilação não invasivas (NIV) melhora as con-

dições de vida dos doentes durante o tratamento.

O objetivo deste trabalho é desenvolver um método de prognóstico baseado em modelos

gráficos probabilísticos dinâmico, para prever indícios de hipoventilação em doentes com ELA,

considerando janelas temporais de 90, 180 e 365 dias.

Foram utilizados dados de 517 doentes com ELA seguidos clinicamente no Hospital de Santa

Maria, em Lisboa. Os dados têm 29 atributos mais a variável da classe binária, que indica se

um doente precisa ou não de NIV.Foram implementados três classificadores baseados em Re-

des de Bayes dinâmicas, diferindo estes na estratégia utilizada na aprendizagem da Rede de

Bayes condicional. A validação dos classificadores foi feita com o método de validação cruzada

com k = 10. Foi também desenvolvida uma aplicação computacional para testar os classifica-

dores. O classificador com melhor desempenho alcançou 93.9%, 92.6% e 94.3% de precisão,

sensibilidade e especificidade, respetivamente.

Palavras Chave

Esclerose Lateral Amiotrófica, Mineração de dados, Modelos Gráficos Probabilísticos, Prog-

nóstico, Classificação, Classificador baseado em Redes de Bayes dinâmicas.

v

Page 8: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de
Page 9: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Conteúdo

1 Introdução 1

1.1 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Dados Clínicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Revisão da Literatura 5

2.1 Esclerose Lateral Amiotrófica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 Primeiros sintomas nos membros superiores ou inferiores . . . . . . . . . . 6

2.1.2 Início da doença na zona da medula . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 Herediteriedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.4 Tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.1 Modelos Gráficos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.2 Redes de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.3 Aprender a estrutura da Rede de Bayes . . . . . . . . . . . . . . . . . . . . 11

2.2.4 Classificador baseado numa Rede de Bayes . . . . . . . . . . . . . . . . . 13

2.2.5 Classificador Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.6 Classificador Tree Augmented Naive Bayes . . . . . . . . . . . . . . . . . . 14

2.2.7 Inferência numa Rede de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.7.A Método de Eliminação de Variáveis . . . . . . . . . . . . . . . . . 16

2.2.7.B Construção da Junction Tree . . . . . . . . . . . . . . . . . . . . . 18

2.2.7.C Cálculo das marginais através da Junction Tree . . . . . . . . . . 20

2.2.8 Redes de Bayes Dinâmicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.9 Aprender a estrutura da Rede de Bayes dinâmica . . . . . . . . . . . . . . 24

2.2.10 Inferência em Redes de Bayes dinâmicas . . . . . . . . . . . . . . . . . . . 25

2.2.10.A Algoritmo Interface . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3 Trabalho Relacionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.1 Trabalho Relacionado em Esclerose Lateral Amiotrófica . . . . . . . . . . . 27

vii

Page 10: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Conteúdo

2.3.2 Trabalho Relacionado em Classificação utilizando MGP . . . . . . . . . . . 29

2.4 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Prever Insuficiência Respiratória em Doentes de ELA 35

3.1 Descrição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.1 Pré processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.1.A Seleção das observações . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.1.B Substituição dos valores em falta e discretização dos dados . . . 39

3.2.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.3 SMOTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.2.4 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 Classificador dinâmico baseado em RBD . . . . . . . . . . . . . . . . . . . . . . . 41

3.3.1 Amostras de transição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.3.3 Classificador cdRBDp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3.4 Classificador cdRBDia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3.5 Classificador cdRBDfa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.5 Discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.6 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 Aplicação 49

4.1 Arquitetura da aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Interface com o utilizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Conclusões e Trabalho Futuro 55

A Appendix A 63

viii

Page 11: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Lista de Figuras

2.1 Exemplo simples de uma Rede de Bayes. . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Três tipos possíveis de conexão entre três nós vizinhos numa Rede de Bayes: a)

linear, b) convergente e c) divergente. . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3 Exemplo de uma rede TAN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Exemplo de uma RB retirada de [1]. A variável E não é utilizada para não se

confundir com a evidência. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.5 O grafo resultante de moralizar o grafo da Figura 2.4. O arco adicionado na mora-

lização está a tracejado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.6 Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =

(A,F,D,C,B,G). A tracejado estão os arcos adicionados para que todos os pares

de vértices de Ci estejam ligados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.7 Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =

(A,B,C,D, F,G). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.8 Junction Tree para o grafo da Figura 2.4 construída usando a ordem de eliminação

π = (A,B,C,D, F,G). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.9 Exemplo de uma Rede de Bayes Dinâmica. . . . . . . . . . . . . . . . . . . . . . . 23

2.10 Rede de Bayes dinâmica desenrolada em três instantes de tempo. . . . . . . . . . 23

2.11 Junção das várias árvores através dos nós interface. It são os nós interface para

o instante de tempo t e Nt os nós não interface desse instante. Dt é o clique em

Jt que contém It−1. Ct corresponde ao clique em Jt que contém It. As caixas

retangulares representam os separadores, sendo os seus domínios It. . . . . . . 26

3.1 Exemplo da estrutura dos dados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Plano de trabalho adotado para a classificação dos doentes de ELA. Para equilibrar

o número de instâncias pertencente a cada classe, foi aplicada a técnica Synthetic

Minority Over-sampling Technique (SMOTE) [2], explicada na Secção 3.2.3. . . . . 37

ix

Page 12: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Lista de Figuras

3.3 Exemplo da seleção das observações dos doentes através da definição de um

intervalo. Neste exemplo os limites inferior e superior são definidos como 2 e 4,

respetivamente. À esquerda está representado um exemplo de um conjunto de

dados e à direita o conjunto resultante de aplicar a operação de seleção. . . . . . 38

3.4 Exemplo da seleção das últimas N observações de cada doente. Neste exemplo,

N = 3. À esquerda está representado um exemplo de um conjunto de dados e à

direita o conjunto resultante de aplicar a operação de seleção. . . . . . . . . . . . 39

3.5 Diagrama UML com uma visão geral da hierarquia de classes do classificador di-

nâmico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.6 Exemplo de um vetor de N instâncias organizadas em T instantes de tempo. . . . 43

3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-

ção das instâncias de dois instantes de tempo consecutivos. A amostra de transi-

ção é obtida através da repetição do procedimento, para todas as instâncias. . . . 43

3.8 Ilustração do método utilizado para a classificação de um doente com o classifi-

cador dinâmico, tendo em conta todas as suas observações. Neste exemplo cada

doente tem N observações e variável da classe assume k valores possíveis. . . . 44

3.9 Resultados da classificação para os dados correspondentes à janela temporal

de 90 dias. Foram utilizados os classificadores dinâmicos cdRBDp, cdRBDia e

cdRBDfa e os classificadores estáticos NB, GHC, TAN e K2. . . . . . . . . . . . . 47

3.10 Resultados da classificação para os dados correspondentes à janela temporal de

180 dias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.11 Resultados relativos ao desempenho dos classificadores obtidos na classificação

utilizando os dados correspondentes à janela temporal de 365 dias. . . . . . . . . 48

4.1 Esquema com a arquitetura da aplicação. . . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Ecrã da aplicação utilizado para carregar os dados no servidor. . . . . . . . . . . . 52

4.3 Ecrã da aplicação utilizado para processar os dados. . . . . . . . . . . . . . . . . 52

4.4 Ecrã da aplicação utilizado para escolher o classificador e os vários parâmetros. 53

4.5 Ecrã da aplicação onde são apresentados os resultados obtidos na classificação. 53

x

Page 13: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Lista de Tabelas

2.1 Probabilidades condicionais para a variável CP. . . . . . . . . . . . . . . . . . . . . 9

3.1 Detalhes dos dados por janela temporal (90, 180 e 365 dias). . . . . . . . . . . . . 37

3.2 Detalhes dos dados por janela temporal (90, 180 e 365 dias), depois de seleciona-

das as primeiras 5 observações de cada doente. . . . . . . . . . . . . . . . . . . . 39

3.3 Intervalos de discretização obtidos para as variáveis contínuas. . . . . . . . . . . . 40

3.4 Exemplo de uma matriz confusão. . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

A.1 Estrutura da RB inicial do classificador que obteve melhores resultados na classi-

ficação (cdRBDia), para os dados correspondentes à janela temporal de 90 dias. . 64

A.2 Estrutura da RB condicional do melhor classificador (cdRBDia), aprendida a partir

dos dados correspondentes à janela temporal de 90 dias. . . . . . . . . . . . . . . 65

xi

Page 14: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Lista de Tabelas

xii

Page 15: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

1Introdução

Contents1.1 Formulação do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Dados Clínicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1

Page 16: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

1. Introdução

A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada

por um enfraquecimento muscular progressivo refletindo a degeneração dos neurónios motores

do córtex motor primário, tronco encefálico e medula espinhal. A principal causa de morte na

ELA está relacionada com as complicações respiratórias devido ao enfraquecimento dos mús-

culos respiratórios, provocando a morte por hipoventilação. Apesar de a ELA ser uma doença

incurável na atualidade, sabe-se que a aplicação de técnicas de ventilação não invasivas (VNI)

suavizam os efeitos devastadores da doença, melhorando as condições de vida dos doentes du-

rante a fase de tratamento.

Na última década, a aplicação de técnicas da área da Inteligência Artificial em problemas

reais tem aumentado significativamente, incluindo muitos problemas da área da Medicina, tanto

em problemas de diagnóstico como prognóstico, onde são aplicadas técnicas de mineração de

dados para extrair informação a partir de dados clínicos. Alguns exemplos do trabalho que tem

sido realizado nesta área são a identificação de estados de demência em doentes de Parkinson

e Alzheimer, estudo de doenças cardiovasculares e cancro, gestão de doentes em unidades de

cuidados intensivos, etc. Em ELA os principais estudos focam-se na identificação de fatores

que influenciam a redução do tempo de sobrevivência dos doentes, baseados em estudos po-

pulacionais. No domínio clínico, os dados apresentam informação temporal, ou seja, informação

resultante de várias observações dos doentes. A necessidade de tratar séries de dados tem-

porais deu origem ao desenvolvimento de uma nova área da Inteligência Artificial, a mineração

de dados temporais. Em termos clínicos, o número de observações é relativamente pequeno,

dando origem a séries de dados temporais pequenas, o que permite reduzir a complexidade dos

métodos que tratam este tipo de dados. Adicionalmente é também importante que os modelos

consigam lidar com incerteza nos acontecimentos e que possam ser facilmente interpretados

pelos clínicos. Os modelos gráficos probabilísticos (MGP) são muito utilizados porque reúnem

todas estas condições. Os MGP representam distribuições de probabilidade conjunta através de

grafos. Cada nó do grafo corresponde a uma, ou a um conjunto de variáveis aleatórias e as liga-

ções representam as relações probabilísticas entre as variáveis. O grafo especifica a fatorização

da probabilidade conjunta, sobre um conjunto de variáveis, num produto de distribuições condici-

onais, cada uma dependendo apenas de um subconjunto de variáveis. As Redes de Bayes (RB)

são MGP em que o grafo é dirigido, expressando relações de dependência entre as variáveis

aleatórias. As Redes de Bayes dinâmicas (RBD) podem ser vistas como uma extensão às RB

para conseguir lidar com as caraterísticas temporais do conjunto de dados, onde é tida em conta

a dependência de uma observação num dado instante de tempo, das observações dos instantes

anteriores.

Neste trabalho, o principal objetivo é o desenvolvimento de uma nova abordagem baseada em

MGP dinâmicos, para prever insuficiência respiratória de doentes com ELA, usando janelas tem-

2

Page 17: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

1.1 Formulação do Problema

porais de 90, 180 e 365 dias.

1.1 Formulação do Problema

O problema em estudo consiste em determinar, com base em dados clínicos, se um doente

que respira sem dificuldade no instante atual i, estará em insuficiência respiratória num instante

i + k, onde k corresponde a um intervalo de 90, 180 e 365 dias. Num contexto de aprendizagem

automática, trata-se de um problema de classificação, visto que não queremos saber o número

de dias até o doente entrar em falha respiratória, mas sim se daqui a um período de k dias o

doente está num estado de insuficiência respiratória.

1.2 Dados Clínicos

Neste trabalho são utilizados dados resultantes da observação de 517 doentes de ELA na

unidade Neuromuscular do Hospital de Santa Maria em Lisboa, durante um período de 10 anos.

Os dados são anónimos não comprometendo a privacidade dos doentes. O intervalo de tempo

entre observações consecutivas é de aproximadamente 3 meses. O conjunto de dados contêm

no total 29 atributos que contêm informação estática (dados demográficos dos doentes) e infor-

mação temporal (resultados da execução de testes respiratórios e avaliações clínicas). Exemplos

de atributos estáticos são o género, idade do doente nos primeiros sintomas da doença, locali-

zação dos primeiros sintomas (forma da doença), histórico familiar de doença do neurónio motor

(MND) tempo entre os primeiros sintomas e a primeira avaliação clínica, índice de massa cor-

poral, etc. Exemplos de atributos com informação temporal são a determinação da capacidade

vital (VC), isto é, a quantidade máxima de ar que uma pessoa consegue expelir dos pulmões

após uma inspiração máxima, e a capacidade vital forçada (FVC) do doente, as concentrações

parciais de oxigénio (SpO2, PO2) a pressão máxima de inspiração e expiração (MIP/MEP), uma

escala de avaliação funcional dos doentes de ELA (ALS-FRS) com uma pontuação máxima de

40, incluindo uma avaliação respiratória (ALS-FRS-R) com uma subpontuação respiratória (R).

1.3 Principais Contribuições

As principais contribuições deste trabalho são as seguintes:

• Implementação de três classificadores dinâmicos baseados em RBD.

• Aplicação dos classificadores implementados ao problema de prognóstico de insuficiên-

cia respiratória em doentes de ELA. O melhor dos três classificadores alcançou precisão,

sensibilidade e especificidade de 93.9%, 92.6%e 94.3%, respetivamente.

3

Page 18: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

1. Introdução

• Desenvolvimento de uma aplicação computacional baseada na arquitetura Modelo-Vista-

Controlador, com uma interface simples para permitir ao utilizador experimentar os classifi-

cadores e visualizar os resultados obtidos de forma simples e rápida.

1.4 Estrutura do Documento

O documento está estruturado da seguinte forma. No Capítulo 2 é feita uma revisão da Li-

teratura. É dada uma explicação da Esclerose Lateral Amiotrófica e são apresentados alguns

dos métodos probabilísticos, baseados em grafos, utilizados na extração de conhecimento a par-

tir dos dados, nomeadamente, as Redes de Bayes e Redes de Bayes dinâmicas. São também

apresentados, resumos de alguns dos trabalhos realizados que utilizam estes métodos em pro-

blemas de classificação na área da Medicina e de alguns trabalhos realizados na Esclerose Late-

ral Amiotrófica. No Capítulo 3 é apresentada a metodologia adotada na realização do trabalho e

são descritos, detalhadamente, os três classificadores baseados em RBD implementados neste

trabalho. Por fim, são apresentados e discutidos os principais resultados obtidos. A aplicação

desenvolvida neste trabalho é apresentada no Capítulo 4. É dada uma breve explicação sobre a

arquitetura da aplicação e interface. Para terminar, no Capítulo 5 são apresentadas as principais

conclusões obtidas com a realização deste trabalho e alguns tópicos a serem explorados em

trabalhos futuros.

4

Page 19: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2Revisão da Literatura

Contents2.1 Esclerose Lateral Amiotrófica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Trabalho Relacionado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5

Page 20: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

2.1 Esclerose Lateral Amiotrófica

A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa fatal caraterizada por

um enfraquecimento muscular progressivo refletindo a degeneração dos neurónios motores do

córtex motor primário, tronco encefálico e medula espinhal [3]. “Amiotrófica” refere-se à atrofia

das fibras musculares e “Esclerose Lateral” ao endurecimento do trato corticoespinhal lateral e

anterior. Os neurónios motores nestas áreas degeneram e são substituídos por gliosis, uma al-

teração reativa não específica das células gliais, em resposta à deterioração do sistema nervoso

central [4].

A principal causa de morte na ELA resulta das complicações respiratórias resultantes do enfra-

quecimento dos músculos respiratórios. Geralmente os doentes falecem de hipoventilação [5].

As causas da doença são desconhecidas. Estudos recentes mostram que não existe uma as-

sociação consistente entre um fator ambiental específico e o risco de desenvolver a doença [3].

Apenas o facto de a pessoa ser fumadora pode estar provavelmente associado com o desenvol-

vimento da doença.

A ELA é caraterizada de acordo com a localização dos primeiros sintomas e se se trata de um

caso esporádico, ou se já existe um histórico familiar da doença para um determinado doente.

Apesar de existir esta divisão da doença de acordo com os primeiros sintomas do doente, sabe-

se que com a evolução da doença, os doentes acabam por sentir todos os sintomas das diversas

formas de ELA. Nas secções seguintes são apresentados os diversos tipos de ELA e os trata-

mentos mais utilizados para suavizar o impacto da doença na vida dos doentes.

Cerca de 5% dos casos da doença apresentam-se com insuficiência respiratória sem terem sin-

tomas específicos dos diversos tipos. Estes doentes apresentam hipoventilação noturna tais

como dispneia, ortopneia, insónias, dores de cabeça matinais, sonolência excessiva durante o

dia, baixa capacidade de concentração e alterações de humor [3].

2.1.1 Primeiros sintomas nos membros superiores ou inferiores

Cerca de dois terços dos doentes de ELA têm esta forma da doença e apresentam sintomas

relacionados com o enfraquecimento muscular, onde os sintomas podem começar, distalmente

ou proximalmente, nos membros superiores ou inferiores. Gradualmente a hipertrofia dos mús-

culos é acompanhada de rigidez e de exagero de reflexos, afetando a destreza manual e a forma

de andar do doente. Também é comum os doentes sentirem fasciculações, isto é, contrações

musculares ligeiras, involuntárias, ritmicas e indolores. Normalmente os doentes com esta forma

da doença sobrevivem entre três a cinco anos.

6

Page 21: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

2.1.2 Início da doença na zona da medula

Doentes com esta forma da doença geralmente apresentam dificuldade na articulação e pro-

núncia das palavras. Em alguns casos, antes de sentirem dificuldades em falar, podem também

sentir dificuldade em engolir sólidos e líquidos. Quase todos os doentes com este tipo da do-

ença desenvolvem sialorreia que consiste na secreção excessiva ou muito abundante de saliva.

Também é comum os doentes sentirem-se fracos e com problemas de equilíbrio, escorregando

e caíndo facilmente. Com este tipo os doentes tendem a sobreviver entre dois a três anos. Isto

porque o enfraquecimento dos músculos faciais afeta a respiração do doente mais cedo. Deste

modo, é mais complicado decidir a altura ideal para recorrer a mecanismos de respiração assis-

tida, recorrendo-se apenas aos testes clássicos de função respiratória [5].

2.1.3 Herediteriedade

Apesar da maioria dos casos de ELA serem esporádicos, alguns casos apresentam-se com

histórico familiar. Nos casos esporádicos a idade média dos primeiros sintomas varia entre os

55 e 65 anos. Apenas 5% dos casos têm os primeiros sintomas antes dos 30 anos [6]. Com

histórico familiar os primeiros sintomas surgem cerca de uma década mais cedo. A maioria dos

casos com histórico familiar está relacionada com a mutação do gene SOD1 [7].

2.1.4 Tratamentos

Embora a ELA seja atualmente uma doença incurável, muitos dos sintomas que surgem com

o decorrer da doença são tratáveis, e os seus efeitos podem ser suavizados, mantendo a auto-

nomia dos doentes para o maior período de tempo possível. Devido aos efeitos devastadores

da doença deve ser oferecido apoio psicológico aos doentes e aos seus familiares o mais cedo

possível. Para aliviar os sintomas provenientes da insuficiência respiratória, anteriormente des-

critos, recorre-se à aplicação de técnicas de ventilação não invasivas (VNI). Está comprovado

que a aplicação de VNI em doentes com ELA aumenta o tempo de sobrevivência e melhora a

qualidade de vida [5].

A dificuldade de engolir e os problemas que daí advém, nomeadamente, má nutrição, perda de

peso e desidratação, são comuns em doentes com ELA. Um tratamento adequado para atenuar

as consequências destes problemas na qualidade de vida dos doentes inclui o aconselhamento

de uma dieta, a transformação dos alimentos sólidos em líquidos e o ensino de técnicas especiais

para engolir [3].

2.2 Mineração de Dados

Nesta secção são introduzidos métodos de mineração de dados baseados em modelos grá-

ficos probabilísticos (MGP). Na Secção 2.2.1 é dada uma breve explicação sobre MGP. Como

7

Page 22: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

método estático apresentamos a Rede de Bayes (RB) na Secção 2.2.2 e como método dinâ-

mico a Rede de Bayes dinâmica (RBD) na Secção 2.2.8. O modo como é feita a aprendizagem

das RBs e RBDs dos dados é descrito nas secções 2.2.3 e 2.2.9, respetivamente. Na Sec-

ção 2.2.4 é explicado como funciona um classificador baseado em RB. São apresentados dois

classificadores baseados em RB: Naive Bayes na Secção 2.2.5 e Tree Augmented Naive Bayes

na Secção 2.2.6. Na Secção 2.3 são descritos trabalhos relacionados na área da Medicina que

utilizam estes métodos e trabalhos de investigação na ELA.

2.2.1 Modelos Gráficos Probabilísticos

Em modelos gráficos probabilísticos as distribuições de probabilidade são representadas atra-

vés de grafos. Cada nó do grafo corresponde a uma variável aleatória, ou a um conjunto de

variáveis aleatórias, e as ligações representam as relações probabilísticas entre essas variáveis.

O grafo pode ser dirigido, em que as ligações tem uma direcção específica indicada pelas setas,

ou não dirigido, onde a direcção das ligações não é relevante. Grafos dirigidos são úteis para

expressar relações causais entre as variáveis aleatórias, enquanto que, grafos não dirigidos são

melhores para expressar restrições entre elas. O grafo especifica a factorização da probabilidade

conjunta, sobre um conjunto de variáveis, num produto de distribuições condicionais, cada uma

dependendo apenas de um subconjunto de variáveis.

A utilização de modelos probabilísticos gráficos têm as seguintes vantagens:

• Permitem a visualização da estrutura do modelo probabilístico de uma forma simples e

podem ser usados para projetar e motivar novos modelos.

• Fornecem uma perspetiva das propriedades do modelo, como por exemplo, as proprieda-

des de independência condicional.

As Redes de Bayes são um exemplo da utilização de modelos gráficos para a representação

das distribuições de probabilidade. Este método é descrito com maior detalhe na secção se-

guinte. Apesar das variáveis aleatórias poderem ser discretas ou contínuas, apenas vamos focar

o caso em que elas são discretas.

2.2.2 Redes de Bayes

As Redes de Bayes (RB) [8] são muito úteis para descrever situações, em que existe um grau

de incerteza nas causas dos acontecimentos. Para descrever estas situações, onde a causa-

lidade assume um papel importante, é fundamental o uso de probabilidades na descrição dos

vários acontecimentos. As RB são definidas por dois componentes, um grafo dirigido e acíclico e

um conjunto de tabelas de probabilidades condicionais. O grafo representa as relações causais

entre as várias variáveis. Cada nó do grafo corresponde a uma, ou a um conjunto, de variáveis

8

Page 23: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

Figura 2.1: Exemplo simples de uma Rede de Bayes.

HF,F HF,¬F ¬HF ,F ¬HF,¬FCP 0.8 0.5 0.7 0.1¬CP 0.2 0.5 0.3 0.9

Tabela 2.1: Probabilidades condicionais para a variável CP.

aleatórias. As variáveis podem ser discretas ou contínuas. As relações causais são representa-

das através das setas que ligam cada par de variáveis. Para uma melhor compreensão das RB

e do modo como é feita a decomposição da probabilidade conjunta, num produto das probabili-

dades condicionais, é apresentado um exemplo de uma RB com quatro variáveis Booleanas na

Figura 2.1. O diagrama da figura permite ter um conhecimento das relações entre as diversas

variáveis, como por exemplo, ter cancro do pulmão é influenciado pelo facto de existir um caso da

doença num familiar, ou se a pessoa é ou não fumador. Para especificar a distribuição de proba-

bilidade é necessário atribuir as probabilidades a todos os nós raiz (nós sem predecessores) e as

probabilidades condicionais a todos os nós não raiz, dadas todas as possiveis combinações de

valores dos seus predecessores diretos (nós pai). Na Tabela 2.1 está um exemplo da atribuição

das probabilidades à variável cancro do pulmão (CP).

Como as variáveis são Booleanas assumem apenas dois valores possíveis, zero quando o sím-

bolo de negação ¬ precede o nome da variável e o valor um caso contrário. Cada coluna da

Tabela 2.1 é uma multinomial θijk, onde i representa a variável em questão, j corresponde à

j-ésima configuração dos valores dos pais da variável representada por i e k corresponde ao

k-ésimo valor dessa mesma variável. Tendo em conta o exemplo da tabela 2.1, as j configu-

rações possíveis dos valores dos pais da variável CP são: (HF = F = 1); (HF = 1, F = 0);

(HF = 0, F = 1) e (HF = F = 0), colunas 1,2,3 e 4 da Tabela 2.1 respetivamente. k corres-

ponde ao k-ésimo valor da variável CP, neste exemplo, k = 1 ou k = 2 consoante a variável CP

assuma o primeiro valor (CP = 1) ou o segundo valor (CP = 0) representados, respetivamente,

nas linhas 1 e 2 da Tabela 2.1. A probabilidade conjunta de uma RB é dada pelo produto das

9

Page 24: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

probabilidades de todos os nós do grafo condicionados pelos seus predecessores diretos (nós

pai). Deste modo, a probabilidade conjunta da rede do exemplo da Figura 2.1 é dada por:

PB(HF,F,CP,EP ) = P (HF )× P (F )× P (CP |HF,F )× P (EP |CP ). (2.1)

Uma RB é um triplo B = (X,G,Θ) onde:

• X = (X1, . . . , Xn) é um vetor aleatório onde cada variável aleatória Xi tem um domínio

finito.

• G = (X,E) é um grafo acíclico dirigido (GAD) com nós em X e arcos E representando

dependências diretas entre as variáveis.

• Θ = {θijk}i∈{1,...,n},j∈{1,...,qi},k∈{1,...,ri} são os parâmetros que especificam as distribuições

locais da rede:

PB(Xi = xik|ΠXi = wij) = θijk, (2.2)

onde ΠXirepresenta o conjunto (possivelmente vazio) dos pais de Xi em G. O número de

possíveis configurações de pais (vetor dos valores dos pais), de cada nó Xi é representado

por qi. A atuais configurações dos pais são ordenadas (arbitrariamente) e representadas

por wi1, . . . , wiqi e dizemos que wij é a j-ésima configuração de ΠXi , com j ∈ {1, . . . , qi}.

Generalizando para um grafo com n variáveis, a probabilidade conjunta é dada por:

PB(T ) =

n∏i=1

P (Xi|ΠXi). (2.3)

As probabilidades a calcular nas RB restringem-se apenas às dos nós raiz, e às condicionais

de todos restantes nós dadas todas as combinações possíveis de valores dos seus nós pai.

Esta redução dos cálculos das probabilidades necessárias à definição da distribuição de proba-

bilidade conjunta é possível devido às assunções de independência feitas nas RB, através da

interpretação causal dos seus arcos. Deste modo, qualquer variável dado o valor dos seus pais

é condicionalmente independente das variáveis que não são suas descendentes no grafo. Esta

é aliás uma das principais vantagens das RB. Tendo em conta o exemplo da Figura 2.1, dado

o valor da variável Cancro do Pulmão (CP), a variável Exame Positivo (EP) é independente dos

valores das variáveis Histórico Familiar (HF) e fumador (F). Isto porque dado o valor da variável

CP, denominada a evidência, as variáveis HF e F não trazem nenhuma informação adicional ao

resultado da variável EP. E em relação às variáveis HF e F, são independentes? A resposta é sim

se o valor da variável CP for conhecido e não caso contrário. De seguida explicamos o porquê

desta resposta apresentando com maior detalhe as assunções de independência nas RB, com

base no conceito de caminho d-connecting [9]. Para compreendermos melhor este conceito, na

Figura 2.2 estão representados os três tipos possíveis de conexão entre três nós vizinhos numa

10

Page 25: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

Figura 2.2: Três tipos possíveis de conexão entre três nós vizinhos numa Rede de Bayes: a)linear, b) convergente e c) divergente.

RB.

Os tipos de conexão linear, convergente e divergente estão representados na Figura 2.2 a), b) e

c), respetivamente.

Um caminho de q para r é d-connecting em relação aos nós evidência E = {e1, . . . , en}, onde

q 6= r 6= ei, se para todos os nós interiores i no caminho:

1. São lineares ou divergentes e não são membros de E.

2. São convergentes e i ou um dos seus descendentes está em E.

Sendo assim, uma variável Xi é dependente de uma variável Xj numa RB, se existe um caminho

d-connecting de Xi para Xj dado uma evidência E. Logo, Xi e Xj são independentes condicio-

nados a E caso não exista tal caminho entre elas.

Considerando a probabilidade conjunta P (X1, . . . , Xn) sobre todas as variáveis da RB e conside-

rando a distribuição condicional de uma variável Xi condicionada a todas as restantes variáveis,

os fatores que permanecem são a probabilidade condicional P (Xi|ΠXi) para o nó Xi e as pro-

babilidades condicionais para qualquer nó Xk que tem Xi como pai. A condicional P (Xi|ΠXi)

depende dos pais de Xi, enquanto que, as condicionais P (Xk|ΠXk) dependem dos pais de Xk

exceto Xi. O conjunto de nós que inclui os pais, os filhos e os pais dos filhos de um nó Xi é

chamado de Markov blanket de Xi. Deste modo, a distribuição condicional de uma variável Xi,

condicionada às restantes variáveis, é dependente apenas das variáveis do seu Markov blanket.

2.2.3 Aprender a estrutura da Rede de Bayes

Aprender uma RB consiste em encontrar o grafo acíclico dirigido (GAD) que melhor se adapta

ao conjunto de dados, com o objetivo de representar de uma forma precisa a distribuição de

probabilidade conjunta que gerou os mesmos. Como existe um enorme número de possíveis

estruturas de rede em função do número total de variáveis, o problema de encontrar a melhor es-

trutura não pode ser resolvido em tempo polinomial. Na realidade, a aprendizagem da RB ótima

11

Page 26: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

na sua formulação mais geral é NP-completa [10]. Mesmo tentando encontrar uma solução apro-

ximada trata-se de um problema NP-completo [11]. Por este motivo, a estrutura aprendida da

RB é frequentemente restringida a uma árvore, a única subclasse de RB onde a aprendizagem

da estrutura ótima é feita em tempo polinomial. Por consequência, as metodologias alternativas

adotadas para resolver o problema de aprender a estrutura da RB baseiam-se em métodos heu-

rísticos de procura, que restringem o espaço de procura utilizando uma função de pontuação φ,

que guia a procura. Esta função avalia uma certa estrutura de rede atribuindo-lhe um valor, para

que, posteriormente possa ser comparada a outras estruturas. O método de procura heurística

escolhe a estrutura de rede B, dado o conjunto de dados T , que maximiza o valor φ(B, T ). Para

a procura ser eficiente é de extrema importância que a função de pontuação seja decomponível

na estrutura da rede, ou seja, que possa ser escrita como uma soma de pontuações locais φi

dependente apenas em cada nó Xi e nos seus pais ΠXi, e que são da forma:

φ(B, T ) =

n∑i=1

φi(ΠXi , T ). (2.4)

Esta propriedade da função φ tem a vantagem de não exigir que todas as pontuações de todos

os nós Xi sejam recalculados, quando é efetuada uma alteração a um nó Xi de B através da

inserção, remoção ou inversão do sentido de um arco que passa por Xi. Apenas a pontuação

local ao nó Xi, φi, necessita ser atualizada.

Exemplos de funções de pontuação decomponíveis baseados na teoria da informação são: Log-

likelihood (LL) e Minimum Description Length (MDL) [12]; exemplos de funções de pontuação

Bayesianas são: K2 [13], Bayesian Dirichlet (BD) e suas variantes (BDe e BDeu) [14].

Os algoritmos heurísticos frequentemente utilizados neste tipo de problema, com este tipo de

funções de pontuação decomponíveis, são os de procura local gananciosa. Um exemplo é o

método Greedy Hill Climber (GHC), que em cada iteração tenta melhorar a pontuação dada a

uma certa estrutura, do seguinte modo:

1. Começa com uma rede inicial, a qual pode ser vazia, aleatória, ou construída através do

conhecimento do domínio do problema.

2. Em cada iteração o algoritmo tenta melhorar a pontuação da rede atual, aplicando as se-

guintes operações locais:

(a) Adição ou remoção de arcos.

(b) Inversão do sentido dos arcos.

3. Atualiza a pontuação das redes resultantes da aplicação das operações locais, e a que tiver

melhor pontuação é estabelecida como a rede atual.

4. O algoritmo repete-se até nenhuma variação da rede conseguir melhorar a pontuação.

12

Page 27: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

2.2.4 Classificador baseado numa Rede de Bayes

Considere uma Rede de Bayes B que especifica uma distribuição de probabilidade conjunta

PB(A1, . . . , An, C) dado um conjunto de dados e onde C corresponde à variável da classe. Dado

um conjunto de atributos a1, . . . , an, o classificador baseado na Rede de Bayes B devolve o valor

c que maximiza a probabilidade PB(c|a1, . . . , an).

A classificação usando RB é feita considerando apenas os atributos relevantes para a variável

da classe C, ou seja, os atributos de que C depende. Dados todos os valores dos atributos

relevantes, C torna-se independente dos restantes atributos. Por consequência, um classifica-

dor baseado numa RB tem em conta apenas os valores das variáveis dos quais C depende.

No procedimento da classificação assume-se que o valor de C é desconhecido e o valor das

restantes variáveis relevantes conhecidos. Para cada possível valor da variável C é calculada a

probabilidade conjunta de todas as variáveis instanciadas. O valor de C que der origem à maior

probabilidade é escolhido como resultado da classificação.

Repare que, em ambos os classificadores, NB e TAN, todos os atributos são tidos em conta no

processo de classificação porque como existe uma ligação do nó da classe para cada atributo,

todos os atributos são relevantes para a variável da classe. Classificadores com esta propriedade

são denominados augmented naive Bayes.

Na Secção 2.2.5 é apresentado o classificador Naive Bayes (NB), a forma mais simples de um

classificador baseado em RB. No classificador NB a estrutura é fixa, isto é, não existem ligações

entre os atributos, apenas uma ligação do nó da classe para cada atributo. Sendo assim, todos

os atributos são assumidos como independentes. Na Secção 2.2.6 é apresentado o classificador

Tree Augmented Naive Bayes (TAN), uma extensão em árvore à estrutura do classificador NB.

Neste caso, cada atributo pode receber no máximo a ligação de um outro atributo, sem contar

com a ligação vinda da variável da classe.

2.2.5 Classificador Naive Bayes

O classificador NB assume que os atributos são todos independentes entre si, e que todos

são dependentes da classe. Este classificador funciona do seguinte modo:

1. Assuma-se queB é uma rede com n variáveis,D é um conjunto de dados com as instâncias

devidamente classificadas, e cada instância composta por n observações a = (a1, . . . , an)

para as n variáveis.

2. Assumindo que existe uma variável da classe C com k valores possíveis, c1, c2, . . . , ck, O

classificador calcula a probabilidade P (ci|a1, a2, . . . , an), 1 ≤ i ≤ k, e classifica a instância

a de acordo com o valor ci de C que deu origem à maior probabilidade.

13

Page 28: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

3. Pelo Teorema de Bayes:

P (ci|a) =P (a|ci)× P (ci)

P (a), (2.5)

e como P (a) é constante para todas as classes, apenas precisamos de maximizar

P (a|ci)× P (ci). (2.6)

Quando P (ci) não é conhecido, supomos que todas as classes são equiprováveis e por

consequência apenas maximizamos P (a|ci).

4. Tendo em conta a independência entre os atributos, P (a|ci) pode ser facilmente calculado

da seguinte forma:

P (a|ci) =

n∏i=1

P (ak|ci) = P (a1|ci)× P (a2|ci)× . . .× P (an|ci), (2.7)

onde a probabilidade P (a|ci) pode ser facilmente estimada através do conjunto de treino,

do seguinte modo: se os atributos são categóricos então P (ak|ci) corresponde ao número

de observações com o valor ci para C em D que tem o valor ak para o atributo k, a dividir

pelo número de observações em D com o valor ci para a variável da classe C.

5. Para atribuir o valor de C à instância a, a Equação (2.6) é calculada para cada ci, sendo a

classificado com o valor ci que maximiza a probabilidade calculada em (2.6).

2.2.6 Classificador Tree Augmented Naive Bayes

O classificador NB desperta grande interesse por parte dos investigadores, devido à sua sim-

plicidade e aos bons resultados que ele obtém na classificação, apesar das suas assunções

irreais de independência face à complexidade dos problemas reais [15]. Desta maneira, foram

propostas várias melhorias ao classificador NB, entre as quais surge as Tree Augmented Naive

Bayes (TAN). As redes TAN são uma extensão à estrutura do classificador NB, onde as assun-

ções de independência entre os atributos deixam de ser tão fortes. Nas redes TAN, o nó do grafo

que diz respeito à classe alvo aponta diretamente para cada atributo, tal como no classificador

NB, mas cada atributo pode ainda receber no máximo uma ligação vinda de outro atributo, permi-

tindo a representação das relações entre os atributos através de uma estrutura em árvore. Deste

modo, à exceção da raiz, todos os nós têm exatamente um nó como pai. Um exemplo de uma

rede TAN é apresentado na Figura 2.3.

Repare que, na rede da Figura 2.3 o nó etiquetado com a letra C é o nó que representa a classe

alvo e o nó etiquetado com A1 é o nó escolhido para raiz dos atributos com dependência em

forma de árvore.

O max span tree é o algoritmo utilizado para construir a árvore que representa as relações entre

os atributos numa rede TAN tendo em conta o conjunto de dados. O procedimento divide-se nos

seguintes passos:

14

Page 29: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

Figura 2.3: Exemplo de uma rede TAN.

1. Calcular Ip(Xi;Xj |Z) para cada par de atributos i 6= j; A função IP (X;Y |Z) é a informação

mútua entre X e Y condicionada a Z e é definida por:

IP (X;Y |Z) =∑

X,Y,Z

P (X,Y, Z)logP (X,Y |Z)

P (X|Z)P (Y |Z). (2.8)

Esta função mede a informação que Y fornece sobre X conhecido o valor de Z.

2. Construir um grafo completo não dirigido, que tem como vértices os atributos da rede e

cada arco pesado com o valor calculado em (2.8) para o respetivo par de variáveis que este

liga.

3. Construir uma árvore que una todos os vértices e que maximize a soma dos pesos dos

seus arcos.

4. Transformar a árvore resultante do passo anterior, numa árvore dirigida escolhendo arbi-

trariamente um atributo para ser raiz e colocando todos os arcos a apontar para fora do

atributo escolhido.

5. Construir a rede TAN adicionando o vértice respeitante à variável da classe e um arco deste

vértice para cada atributo.

A complexidade temporal do algoritmo acima descrito é linear no número de instâncias pre-

sentes no conjunto de dados e quadrático no número de variáveis da RB. Esta complexidade é

determinada pelo cálculo dos pesos dos arcos, onde temos de calcular a expressão na Equação

(2.8) para todos os pares de vértices.

2.2.7 Inferência numa Rede de Bayes

O objetivo da inferência numa RB B consiste em calcular a probabilidade PB(XU |XE), onde

XU corresponde ao conjunto de variáveis não observadas, as quais pretendemos conhecer o

seu valor, e XE ao conjunto de variáveis instanciadas, denominadas de evidência. Frequente-

mente, XU corresponde a uma única variável. Dada a probabilidade conjunta sobre um conjunto

de variáveis, podemos facilmente responder a qualquer questão sobre o valor de uma variável,

15

Page 30: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

marginalizando-a sobre o valor das restantes variáveis. A marginalização é feita da seguinte

forma:

P(X4=d) =∑a,b,c

P (a, b, c, d) =∑

a∈dom(X1)

∑b∈dom(X2)

∑c∈dom(X3)

P (X1 = a,X2 = b,X3 = c,X4 = d),

(2.9)

onde d é fixo e corresponde ao valor atribuído à variável X4 e a, b e c assumem os valores

possíveis dos domínios das variáveis X1, X2 e X3, respetivamente. Deste modo, a probabilidade

de X4 ter o valor d é dada pelo somatório de todas as possíveis combinações de valores das

restantes variáveis. A probabilidade condicional P (X4 = d|X2 = b) é calculada utilizando o

Teorema de Bayes:

P (X4 = d|X2 = b) =P (b, d)

P (b)=

∑a,c P (a, b, c, d)∑a,c,d P (a, b, c, d)

. (2.10)

No numerador, o somatório é feito apenas sobre os valores das variáveis X1 e X3 porque X2

está instanciada e X4 faz parte da pergunta.

2.2.7.A Método de Eliminação de Variáveis

O método de Eliminação de Variáveis [16] é um método exato muito utilizado na inferência

em RBs. Este método é apresentado tendo em conta a RB B da Figura 2.4.

Figura 2.4: Exemplo de uma RB retirada de [1]. A variável E não é utilizada para não se confundircom a evidência.

16

Page 31: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

A RB B especifica a probabilidade conjunta na forma fatorizada:

P (A,B,C,D, F,G) = P (A)P (B|A)P (C|A)P (D|A,B)P (F |B,C)P (G|F ). (2.11)

Supondo que queríamos marginalizar todas as variáveis desta distribuição de probabilidade

conjunta, teríamos:

∑A,B,C,D,F,G

P (A)P (B|A)P (C|A)P (D|A,B)P (F |B,C)P (G|F ). (2.12)

Com o objetivo de reduzir o número de multiplicações escrevemos a expressão numa forma

em que seja avaliada eficientemente, tirando partido da propriedade distributiva da soma pela

multiplicação. A expressão pode ser escrita da seguinte forma:

∑A

P (A)∑B

P (B|A)∑C

P (C|A)∑D

P (D|B,A)∑F

P (F |B,C)∑G

P (G|F ). (2.13)

Trabalhando a expressão da direita para a esquerda temos:

∑A

P (A)∑B

P (B|A)∑C

P (C|A)∑D

P (D|B,A)∑F

P (F |B,C)ΛG−>F (F ), (2.14)

onde ΛG−>F (F ) =∑

G P (G|F ). A notação ΛG−>F (F ) significa um termo que depende da variá-

vel F e que vai do somatório sobre a variável G para o somatório sobre F . Para reduzir o número

de cálculos tentamos mover o mais para a esquerda possível, com a restrição de que todas as

variáveis que aparecem no termo devem estar incluídas no somatório correspondente. Depois

do fator ΛG−>F (F ) ser movido para o somatório sobre F , a variável G pode ser removida. Assim,

no próximo passo temos:

∑A

P (A)∑B

P (B|A)∑C

P (C|A)ΛF−>C(B,C)∑D

P (D|B,A), (2.15)

onde ΛF−>C(B,C) =∑

F P (F |B,C)ΛG−>F (F ). Como este fator depende das variáveis B e C,

é movido para o somatório em C porque C têm um maior índice na ordem de eliminação. Depois

do fator ser movido para o somatório correto a variável F pode ser eliminada. O procedimento

é repetido até todas as variáveis estarem marginalizadas. Este método tem uma complexidade

temporal exponencial no tamanho do maior fator gerado. Deste modo, a ordem de eliminação

das variáveis utilizada é fundamental para o seu desempenho, visto que, uma má ordem de

eliminação pode originar a geração de fatores enormes e, por consequência, comprometer o

desempenho do método.

Murphy [1] mostra que a utilização de uma estrutura em árvore na inferência, denominada de

Junction Tree, permite o cálculo das n marginais em tempo O(n), sendo n o número de variáveis

da rede. De seguida são descritos os passos necessários para construir uma Junction Tree

a partir de qualquer grafo e o procedimento utilizado para calcular as marginais através dessa

17

Page 32: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

mesma estrutura. A ideia base consiste em armazenar na árvore os termos gerados durante a

eliminação das variáveis, para que estes possam ser reutilizados, evitando assim a repetição dos

mesmos cálculos.

2.2.7.B Construção da Junction Tree

Para construir uma Junction Tree a partir de um grafo são necessários os seguintes passos:

1. Moralização do grafo: Para moralizar um grafo é necessário ligar os nós que partilham pelo

menos um nó filho. A direção dos arcos é retirada. A Figura 2.5 apresenta o grafo não

dirigido resultante da moralização do grafo da Figura 2.4.

Figura 2.5: O grafo resultante de moralizar o grafo da Figura 2.4. O arco adicionado na moraliza-ção está a tracejado.

2. Triangulação do grafo: Um grafo para ser triangular não pode conter ciclos com mais de

três vértices sem ter um arco que não faça parte do ciclo e que una dois vértices do ciclo.

Para triangular um grafo começa-se com todos os n vértices não numerados, o contador i

inicializado com o valor n e uma ordem de eliminação Π predefinida. Enquanto existirem

vértices não numerados:

• vi = Π(i), onde vi é o i-ésimo vértice a ser eliminado segundo Π.

• Formar um conjunto Ci composto por vi e pelos seus vizinhos, ou seja, todos os

vértices ligados por um arco a vi, e que ainda não estão eliminados.

• Se necessário, adicionar arcos de modo a que todos os pares de vértices em Ci este-

jam ligados.

• Eliminar vi e decrementar i em 1 unidade até que i = 1.

Exemplos da triangulação do grafo da Figura 2.4 utilizando as ordens de eliminação Π =

(A,F,D,C,B,G) e Π = (A,B,C,D, F,G) estão representadas na Figura 2.6 e na Fi-

gura 2.7, respetivamente. Neste último exemplo não foram adicionados quaisquer arcos,

18

Page 33: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

significando que o grafo da Figura 2.4 já é triangular porque tem uma ordem de eliminação

perfeita.

Figura 2.6: Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =(A,F,D,C,B,G). A tracejado estão os arcos adicionados para que todos os pares de vérticesde Ci estejam ligados.

Figura 2.7: Eliminação dos nós do grafo da Figura 2.5 utilizando a ordem de eliminação π =(A,B,C,D, F,G).

3. Construção da árvore de eliminação: A árvore de eliminação é construída a partir dos

conjuntos gerados na triangulação do grafo, conectando Ci a Cj , onde j corresponde ao

maior número utilizado na etiquetação dos vértices em Ci\{vi}.

Cada conjunto corresponde a um clique no grafo, ou seja, um subconjunto de vértices tal

que, todos os pares de vértices estão ligados por um arco.

Os cliques podem não ser máximos. Para que sejam máximos, os conjuntos redundantes

têm de ser removidos durante a triangulação. Quando Cj é gerado, verifica-se se já existe

algum conjunto Ci, tal que, Cj ⊂ Ci. Se existir tal conjunto Cj não é considerado na

construção da árvore de eliminação.

19

Page 34: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

4. Construção da Junction Tree a partir da árvore de eliminação: Se os nós da árvore de

eliminação criada no passo anterior correspondem a cliques máximos, então a Junction

Tree pode ser obtida da seguinte forma:

• Adiciona-se um arco entre Ci e Cj se Ci ∩ Cj 6= 0. O peso atribuído a este arco é

|Ci ∩ Cj |, ou seja, o número de vértices presentes em ambos os conjuntos.

• Constrói-se uma árvore que inclua todos os conjuntos e maximize a soma dos pesos

dos seus arcos.

Na Figura 2.8 está ilustrada a Junction Tree resultante do grafo da Figura 2.4 com a ordem

de eliminação das variáveis Π = (A,B,C,D, F,G).

Figura 2.8: Junction Tree para o grafo da Figura 2.4 construída usando a ordem de eliminaçãoπ = (A,B,C,D, F,G).

2.2.7.C Cálculo das marginais através da Junction Tree

Os métodos de inferência que utilizam uma Junction Tree como estrutura de dados diferem,

essencialmente, na forma como é feita a passagem das mensagens entre os nós da árvore. Em

ambas as abordagens assume-se que:

• Sij corresponde ao separador entre os cliques i e j, ou seja, às variáveis que estão pre-

sentes em ambos os cliques.

• Cada clique tem um potencial φ associado, igual à multiplicação de todos os termos asso-

ciados ao clique. Como exemplo temos o clique ABD da árvore da Figura 2.8, que contém

os termos P (A), P (B|A) e P (D|A,B). Neste caso, φ(ABD) = P (A)P (B|A)P (D|A,B).

• O potencial no separador Sij , φ(Sij), é denominado de mensagem. Mensagem de i para j,

µi−>j , se o potencial no separador foi atualizado por i, e mensagem de j para i, µj−>i, se

o potencial no separador foi atualizado por j.

• A atualização do potencial em j para incluir a mensagem que vem de i é feita da seguinte

forma:

20

Page 35: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

φ∗j =

∑i\Sij

φ(i)

φ(Sij)φ(j). (2.16)

As duas abordagens utilizadas são a passagem de mensagens em paralelo e em série que

são descritas de seguida.

• Passagem de mensagens em paralelo: Em cada passo, todos os nós da árvore colecionam

em paralelo todas as mensagens dos seus nós vizinhos atualizando o seu potencial da

seguinte forma:

φ∗j = [∏

i∈vizinhos(j)

µi−>j ]φ(j). (2.17)

Após recebidas todas as mensagens dos seus nós vizinhos, o nó j pode enviar para todos

os k vizinhos, o produto de todas as mensagens recebidas dos seus vizinhos exceto a do

vizinho k:

µj−>k =

∑j\Sjk

φ(j)

µk−>j. (2.18)

Nesta abordagem, como todos os nós executam os cálculos em cada passo, a sua comple-

xidade temporal é O(n2), onde n corresponde ao número de nós da árvore, enquanto que

a abordagem seguinte consegue calcular todas as n marginais em duas passagens pela

árvore, ou seja, com uma complexidade temporal O(n) [1].

• Passagem de mensagens em série: Esta abordagem está dividida em duas fases. Na

primeira o fluxo de mensagens é dos nós folha para o nó raiz da árvore. Um nó genérico j

coleciona as mensagens dos seus filhos:

φ∗j = [∏

i∈filhos(j)

µi−>j ]φ(j). (2.19)

Depois, o nó j passa a mensagem para o seu único pai, k, do seguinte modo:

µj−>k =∑j\Sjk

φ(j). (2.20)

A Equação (2.20) está simplificada porque µk−>j = 1 (todas as mensagens são inicializa-

das a 1.)

Na segunda fase, cada nó coleciona a mensagem vinda do seu único pai e passa a mensa-

gem a todos os seus filhos, sendo o fluxo de mensagens do nó raiz para os nós folha. Esta

fase é também designada de distribuição de evidência. O nó j calcula o seu novo potencial

da seguinte forma:

21

Page 36: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

φ∗j = φjµk−>j . (2.21)

De seguida, o nó j envia a seguinte mensagem para cada um dos seus i filhos:

µj−>i =

∑j\Sij

φ∗(j)

µi−>j. (2.22)

2.2.8 Redes de Bayes Dinâmicas

Uma Rede de Bayes Dinâmica (RBD) pode ser vista como uma extensão às RBs, visto que

permite lidar com as caraterísticas temporais de um conjunto de dados. As RBD têm a vantagem

de conseguir representar a evolução temporal de um conjunto de variáveis aleatórias de uma

forma compacta. Por consequência são introduzidos diferentes instantes de tempo, e em cada

instante existe um modelo que representa o estado do sistema, sobre o conjunto de variáveis

relevantes nesse instante de tempo. Seja X = {X1, . . . , Xn} o conjunto de atributos de todo o

processo, X(t)i a variável aleatória que denota o valor do atributo Xi no instante de tempo t e

X(t) o conjunto de variáveis aleatórias Xi que caraterizam o estado do sistema no instante t.

Como as RBD modelam processos que evoluem ao longo do tempo, tem de ser especificada

uma distribuição de probabilidade para todas as variáveis do processo, ou seja, para as variáveis

X(0)∪X(1) . . .∪X(T ), onde T representa o número máximo de instantes de tempo. A especifica-

ção desta distribuição de probabilidade é uma tarefa complexa, mas pode ser simplificada tendo

em conta duas premissas:

1. Hipótese de Markov: as variáveis X(t+1) não dependem diretamente das variáveis X(t′)

para todo o instante t′ < t. Por consequência P (X(t+1)|X(0), . . . , X(t)) = P (X(t+1)|X(t)).

2. Hipótese de estacionariedade do processo: a probabilidade condicional P (X(t+1)|X(t)) é

independente de t.

Dadas estas premissas, uma RBD [17] que define uma distribuição de probabilidade conjunta

sobre todas as variáveis do processo é um par (B0, B→) onde:

• B0 é uma RB que especifica uma distribuição sobre as variáveis X(0) que representa o

estado inicial do sistema.

• B→ é um modelo de transição representado por uma Rede de Bayes Condicional (RBC) so-

bre as variáveis X(t) ∪X(t+1) que especifica a probabilidade condicional PB→(X(t+1)|X(t))

para todo o t. Numa RBC as ligações existentes são das variáveis do instante t para as

variáveis do instante t+ 1. Não são permitidas ligações no sentido inverso. As variáveis do

instante t não têm pais e são denominadas de variáveis de entrada.

22

Page 37: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

Figura 2.9: Exemplo de uma Rede de Bayes Dinâmica.

Na Figura 2.9 está ilustrada um exemplo simples de uma RBD com apenas três variáveis X1,

X2 e X3. A RB B0 e a RBC B→ estão ilustradas em a) e b), respetivamente. Tendo em conta o

exemplo da Figura 2.9, a RB B0 especifica a distribuição inicial sobre as variáveis X1, X2 e X3 e

a RB B→ a seguinte probabilidade de transição:

PB→(X(1)|X(0)) =

n∏i=1

PB→(X(1)i |ΠX

(1)i

), (2.23)

onde n corresponde ao número de variáveis (neste exemplo n = 3). As probabilidades de transi-

ção têm a mesma expressão para todos os instantes de tempo.

Uma RBD pode ser vista como uma representação compacta de todas as possíveis trajetórias

do processo, podendo ser desenrolada para cada instante t > 0.

Figura 2.10: Rede de Bayes dinâmica desenrolada em três instantes de tempo.

Na Figura 2.10 é apresentado o resultado de desenrolar a RBD da Figura 2.9 em três instantes

de tempo. No instante t = 0, os pais de X(0)i são aqueles presentes na RB inicial B0. Nos

instantes t com 1 ≤ t ≤ 2 os pais de X(t)i correspondem aos nós pai de X(t)

i na RB B→.

Dada uma RBD, a distribuição conjunta sobre as variáveis {X(0), . . . , X(T )} é dada por:

PB(X(0), . . . , X(T )) = PB0(X(0))

T−1∏t=0

PB→(X(t+1)|X(t)), (2.24)

23

Page 38: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

onde PB→(X(t+1)|X(t)) é obtido da Equação (2.9).

Numa RBD uma variável pode ter uma ligação para si própria em instantes de tempo diferentes.

Podemos encontrar este tipo de ligação na Figura 2.10, onde as variáveis X1 e X3 têm ligações

para elas próprias em instantes de tempo consecutivos. Numa RB este tipo de ligação não pode

existir, visto que, não são permitidos ciclos no grafo.

A RBD do exemplo é estacionária porque a estrutura da RBC é a mesma para todos os instan-

tes de tempo, para mais, respeita a hipótese de Markov, visto que, as variáveis presentes num

instante de tempo são influenciadas diretamente apenas pelas do instante de tempo anterior.

Estas restrições são feitas por causa de problemas de eficiência. Existem problemas onde têm

de ser analisadas séries de dados temporais longas, em que a frequência de observações é

muito grande, e por consequência, as restrições acima descritas são tidas em conta para tornar

possível a sua computação em tempo eficiente. Um exemplo deste tipo de problemas é a aná-

lise da bolsa, um problema na área da Economia. Porém, existem problemas onde as séries de

dados temporais são curtas, como é o caso dos problemas que lidam com dados clínicos, em

que o número de observações é baixo. Nestes problemas são possíveis alguns relaxamentos

às hipóteses de Markov e de estacionariedade para que estes possam ser resolvidos com maior

eficácia, tendo em conta a complexidade dos problemas reais. Uma alteração da complexidade

do problema seria considerar que as variáveis presentes num instante t dependem diretamente,

não apenas das variáveis do instante t − 1, mas também das variáveis do instante t − k, para

algum k fixo. Sistemas que respeitam esta propriedade são denominados de sistemas Semi-

Markovianos.

A estrutura da RBC pode também não ser a mesma em instantes temporais diferentes, tornando-

se numa rede não estacionária. As alterações à estrutura da RBC podem ser originadas pela

inclusão ou exclusão de arcos, ou pela modificação dos sentidos dos arcos existentes.

A secção seguinte explica como é feita a aprendizagem da RBD, estacionária ou não estacioná-

ria, a partir de um conjunto de dados.

2.2.9 Aprender a estrutura da Rede de Bayes dinâmica

O método de aprendizagem das RBD de um conjunto de dados difere consoante o tipo de

RBD, isto é, se esta é estacionária ou não estacionária. No caso em que as RBDs são estacio-

nárias, a aprendizagem pode ser feita utilizando as mesmas técnicas utilizadas na aprendizagem

das RB descritas na Secção 2.2.3, os mesmos métodos de procura e as mesmas funções de

pontuação com alterações simples [17]. As funções de pontuação continuam a ser decompo-

níveis na estrutura da rede permitindo que a RB B0 seja aprendida independentemente da RB

B→ [17]. A RB B→ é aprendida exatamente da mesma forma como é aprendida uma RB para

um conjunto de amostras de transições presente no conjunto de dados. Para cada transição são

aplicadas as operações locais à estrutura da rede com a finalidade de aumentar a sua pontua-

24

Page 39: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.2 Mineração de Dados

ção. Este procedimento repete-se até a pontuação da estrutura da rede convergir.

Para RBDs não estacionárias o método de aprendizagem é diferente, como a estrutura da rede

pode mudar entre diferentes instantes de tempo, pretendemos estimar um conjunto de redes em

vez de uma rede apenas. Uma abordagem possível seria estimar uma RB para cada instante

de tempo, mas esta abordagem pode não funcionar bem porque se o número de observações

é baixo em cada instante de tempo, a reconstrução precisa da estrutura correta pode ser difícil

ou impossível. Por outro lado, aprender cada rede separadamente pode conduzir a estruturas

de redes muito diferentes em diferentes instantes de tempo. Sendo assim, uma alternativa con-

siste em encontrar a RB inicial e o conjunto de alterações à estrutura da rede inicial para cada

transição que melhor descrevem os dados [18].

2.2.10 Inferência em Redes de Bayes dinâmicas

A forma mais simples de fazer inferência numa RBD consiste em desenrolar a RBD para

t instantes de tempo desejados e de seguida aplicar qualquer um dos métodos de inferência

utilizados em RB, a cada uma das redes estáticas resultantes. Um dos algoritmos utilizados na

inferência exata em RBDs é o Interface [1]. Este algoritmo utiliza sempre a mesma Junction Tree,

construída a partir da RBC. De seguida é dada uma explicação de como funciona o algoritmo.

2.2.10.A Algoritmo Interface

O algoritmo interface utiliza apenas os nós num instante de tempo que têm filhos no instante

temporal seguinte para separar o passado do futuro [1]. Estes nós são designados de forward

interface. Os nós no instante t que têm pais no instante t− 1 são designados de backward inter-

face. De uma maneira geral ambos os nós forward interface e backward interface são designados

por nós interface. A Junction Tree é construída removendo do grafo da RBC, todos os nós não

interface e os seus arcos do primeiro instante de tempo. Para maior detalhe ver a Secção 2.2.7.B

que explica como se constrói uma Junction Tree a partir de um grafo. A única restrição é os nós

interface do instante t− 1 e t, designados por It−1 e It, respetivamente, têm de formar um clique

cada um. Isto pode ser assegurado adicionando arcos ao grafo moralizado entre todos os nós

em It−1 e de forma análoga para It. Depois de construídas todas as árvores, uma para cada

instante de tempo desejado, podemos juntá-las através dos seus nós interface, como ilustrado

na Figura 2.11.

A inferência pode ser feita em cada árvore separadamente, como nas RB estáticas. A troca

das mensagens entre árvores é feita através dos nós interface, em duas passagens, a primeira

da árvore mais à esquerda para a mais à direita e a segunda da árvore mais à direita para a

árvore mais à esquerda, tendo em conta a Figura 2.11. De seguida são descritos os cálculos

efetuados em cada uma das passagens:

• Primeira passagem:

25

Page 40: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

Figura 2.11: Junção das várias árvores através dos nós interface. It são os nós interface para oinstante de tempo t e Nt os nós não interface desse instante. Dt é o clique em Jt que contémIt−1. Ct corresponde ao clique em Jt que contém It. As caixas retangulares representam osseparadores, sendo os seus domínios It.

1. Todos os potenciais (dos cliques e separadores) são inicializados a 1.

2. Em Jt−1, extrair o potencial em Ct−1, e marginaliza-se para It−1. Depois multiplica-se

pelo potencial de Dt.

3. Multiplicar as CPDs para cada nó no instante t pelo respetivo potencial em Jt, apli-

cando a evidência quando necessário.

4. Colecionar a evidência na raiz da árvore Ct.

5. Devolver todos os potenciais (dos cliques e separadores) em Jt.

Repare que, mesmo depois de colecionar a evidência na raiz Ct da árvore, nem todos os

cliques em Jt viram a evidência. É necessário distribuir a evidência de Ct para calcular a

distribuição sobre todos os nós de Jt. Este passo é executado na segunda passagem.

• Segunda passagem:

1. Como entrada temos ft|t que contém todos os potenciais dos cliques e separadores

de todos os nós de Jt, e bt+1|T , que contém os potenciais dos cliques e separadores

sobre todos os nós em Jt+1.

2. De bt+1|T , extrair o potencial para Dt+1, e marginalizá-lo para It.

3. Atualizar o potencial deCt em Jt absorvendo do potencial deDt+1 em Jt+1 da seguinte

forma:

φ∗Ct= φCt

∑Dt+1\Ct

φDt+1∑Ct\Dt+1

φCt

. (2.25)

4. Distribuir a evidência da raiz Ct.

5. Devolver todos os potenciais dos cliques e separadores.

26

Page 41: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.3 Trabalho Relacionado

A complexidade temporal do algoritmo está entre O(KI+1) e O(KI+D), onde I corresponde

ao número de nós da forward interface, D é o número de nós não observados por instante de

tempo e K o número máximo de valores possíveis de cada nó [1].

2.3 Trabalho Relacionado

Nesta Secção são apresentados alguns dos trabalhos realizados relacionados com a ELA

Secção 2.3.1 e com a utilização de MGP em problemas de classificação na área da medicina

Secção 2.3.2, sendo dada maior importância à utilização de RB e RBD.

2.3.1 Trabalho Relacionado em Esclerose Lateral Amiotrófica

Apesar da ELA ser atualmente uma doença incurável, têm sido realizados trabalhos no sen-

tido de minimizar os efeitos devastadores da doença e com o objetivo de encontrar novas es-

tratégias para o tratamento [19]. Atualmente, o riluzole é o único agente terapêutico eficaz no

tratamento, prolongando a sobrevida dos doentes pelo menos 3 a 6 meses. No entanto, o atraso

do diagnóstico compromete seriamente a eficácia do tratamento. Têm sido também realizados

vários estudos [20] [21] [22], com o objetivo de perceber os fatores que impedem a realização

do diagnóstico atempadamente e de apresentar soluções para este problema. De seguida são

apresentados alguns dos trabalhos relacionados neste âmbito.

Vucic et al. [19] resumem os estudos feitos recentemente acerca da evolução e das funções

do organismo durante a doença, fundamentalmente com as alterações que são provocadas pela

doença. Avanços na genética permitiram a descoberta de 16 novos genes associados à ELA e à

identificação de mais de 50 mutações para cada um deles. Uma das descobertas mais importan-

tes foi da relação do gene C9ORF72 com a doença, visto que este aparece em mais de 40% dos

casos hereditários de ELA e em mais de 20% dos casos esporádicos. Esta descoberta permitiu

perceber melhor o desenvolvimento da doença e os mecanismos que a provocam, permitindo o

desenvolvimento de novas estratégias de tratamento. Neste contexto, o estudo de tratamentos

baseados em substituição de células tornou-se numa área ativa de investigação em doenças

neurodegenerativas, incluindo a ELA. Experiências realizadas em modelos de ratos transgénicos

mostram que a severidade da degeneração dos neurónios motores é proporcional aos níveis da

proteína TDP-43, sugerindo um papel importante desta proteína na regulação da severidade da

ELA.

Pinto et al. [5] efetuaram testes de função respiratória para detetar atempadamente sinais de

insuficiência respiratória em doentes de ELA. Insuficiência respiratória define-se na ELA como

sendo o aumento de CO2 no sangue arterial (PCO2 > 45 mmHG). Dos 199 doentes analisados,

27

Page 42: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

131 apresentavam a forma da doença que tem início nos membros e 68 a forma da doença com

início na zona da medula. Apenas 24 doentes apresentavam sintomas de insuficiência respira-

tória. As medições efetuadas em cada doente foram a capacidade vital forçada (FVC), pressões

máximas de expiração e inspiração (PEmax e PImax), pressão na inspiração aos 100 ms (P0.1)

e a amplitude da resposta do nervo frénico motor à estimulação elétrica percutânea. Da análise

estatística através do modelo de regressão logística, verificou-se que a resposta do nervo frénico

à estimulação elétrica é discriminativa para previsão de insuficiência respiratória nas duas formas

da doença, com especificidade, sensibilidade e valor preditivo negativo altos, mas com valor pre-

ditivo positivo baixo, ou seja, quando os valores de resposta do nervo frénico são normais existe

uma grande incerteza na previsão de insuficiência respiratória.

Para avaliar o efeito de NIV na qualidade de vida e no aumento da sobrevida dos doentes

com ELA, foi realizado um estudo [23] com 41 doentes, dos quais 22 já tinham sido submetidos

a NIV. Os doentes foram avaliados de 2 em 2 meses e escolhidos aleatoriamente para lhes ser

administrada NIV, quando apresentavam dificuldade em respirar, com pressão máxima de inspi-

ração menor do que 60%. Foi realizado o teste generalizado de Wilcoxon, sendo usada como

covariável o nível de enfraquecimento da medula. Concluí-se que a aplicação de NIV melhora a

qualidade de vida e a sobrevida em doentes com ELA. Em doentes com enfraquecimento normal

a moderado do funcionamento da medula, o aumento mediano do número de dias de sobrevida

é de 205 dias, valor este muito maior ao obtido com o riluzole (2 a 3 meses). Doentes com enfra-

quecimento severo no funcionamento da medula apenas têm um aumento da qualidade de vida.

Nzwalo et al. [20] realizaram um estudo para identificar os fatores que provocam o atraso do

diagnóstico de ELA. Foram utilizados os registos clínicos de 120 doentes com ELA. As variáveis

utilizadas neste estudo foram a idade (< 45 vs ≥ 45 anos), género, forma da doença, especi-

alidade do médico que avaliou o doente (neurologista ou não neurologista), intervalo de tempo

desde o início da doença até à primeira consulta, segunda consulta e momento em que foi feito

o diagnóstico (< 12 vs ≥ 12 meses). Para identificar as variáveis relacionadas com o atraso no

diagnóstico, foi utilizado o método de regressão logística multivariada. Verificou-se que quando

a avaliação do doente é feita por um neurologista na primeira ou segunda consulta, existe menor

atraso (< 12 meses) no diagnóstico da ELA (p < 0, 05). A probabilidade de ter um diagnóstico

atrasado (≥ 12 meses) é maior em doentes com idade igual ou inferior a 45 anos (p < 0, 05). O

género do doente e a forma da doença com início na zona da medula estão independentemente

associadas a um menor atraso no diagnóstico (p < 0, 05). O atraso deve-se principalmente ao

reencaminhamento tardio do doente para um especialista adequado (neurologista).

No estudo de Cellura et al. [21], foram utilizados os registos clínicos de 260 potenciais doen-

28

Page 43: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.3 Trabalho Relacionado

tes com ELA. Dos 260 doentes, 65 tinham a forma da doença que tem início na zona da medula

e 195 tinham a forma da doença que tem início nos membros superiores ou inferiores. Foram

recolhidos dados relativos ao número de especialistas consultados antes de ser consultado um

neurologista, os diagnósticos feitos antes de ser diagnosticada ELA, atraso desde o início da

doença até ao diagnóstico correto, e do tempo de atraso atá ao diagnóstico correto (devido a um

diagnóstico incorreto na primeira consulta). O método de análise estatística utilizado foi o da re-

gressão logística multivariada. Verificou-se que a mediana do tempo entre o início da doença e o

diagnóstico correto era de 11 meses (p = 0, 97), não existindo uma diferença significativa para as

duas formas da doença. Um diagnóstico incorreto na primeira consulta atrasa significativamente

o alcance do diagnóstico correto, num tempo mediano de 15 meses (p < 0, 001). O atraso do

diagnóstico correto não é encurtado quando o doente é visto primeiramente por um neurologista,

resultado que contraria o resultado obtido no estudo feito por Nzwalo et al. [20].

Gupta et al. [22] desenvolveram um modelo estatístico para prever o risco de desenvolvimento

de ELA para diminuir o tempo do diagnóstico. O diagnóstico de ELA é difícil no início da doença

porque os seus sintomas são semelhantes aos de muitas outras doenças. Para além disso, o

diagnóstico é baseado em técnicas que demoram alguns meses a serem efetuadas, nomea-

damente, exames neurológicos, eletrofisiológicos e radiológicos. Para a construção do modelo

foram utilizados 44 doentes esporádicos de ELA e 29 indivíduos saudáveis (sem hipertensão,

diabetes ou problemas cardíacos), que serviram para controlo. Das 13 variáveis independentes

analisadas, apenas 5 se revelaram significativas para prever o risco de ELA, após ter sido feita

uma análise estatística usando regressão logística (p < 0, 05). As 5 variáveis significativas são:

serum CCL2, CCL2 mRNA, VEGFA mRNA, consumo de álcool e tabaco. O modelo obtido acerta

em 90,4% dos diagnósticos. A sensibilidade e especificidade do modelo são de 93,2% e de

86,2%, respetivamente. No trabalho realizado por Amaral [24] foram construídos três modelos

de prognóstico de insuficiência respiratória em doentes com ELA (usando Naive Bayes), baseado

em janelas temporais de 90, 180 e 365 dias e atingem axatidões de 78.48%, 71.42%, e 72.27%,

respetivamente.

2.3.2 Trabalho Relacionado em Classificação utilizando MGP

Apesar de as RB e as RBD serem métodos muito utilizados em problemas de classificação

na área da medicina, não encontrámos nenhum trabalho relacionado da aplicação destes méto-

dos na classificação de doentes com ELA. Sendo assim, focámos a nossa pesquisa na aplicação

destes métodos em outras doenças, incluindo as doenças de Parkinson e Alzheimer que também

fazem parte das doenças neurodegenerativas mais importantes.

Morales et al. [25] utilizam os classificadores NB e Máquinas de Vetores de Suporte (MVS),

29

Page 44: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

com o objetivo de discriminar os doentes com Parkinson (DP) que mantêm capacidade cognitiva

intacta (PCCI), daqueles que apresentavam pequenas alterações cognitivas (PPAC) e daque-

les que estão já num estado de demência (PED). Adicionalmente, extraiu-se as variáveis mais

relevantes relacionadas com o estado de demência na DP, de acordo com o previsto pelos clas-

sificadores. Os dados utilizados consistem em 45 doentes (27 homens e 18 mulheres) 14 PED,

15 PPAC e 16 PCCI. Neste estudo foram utilizadas 112 variáveis por doente, relativas à espes-

sura do córtex cerebral e ao volume das estruturas subcorticais obtidas através de ressonância

magnética. Foram realizados quatro estudos, três assumem a variável da classe, C, como sendo

binária, para distinguir entre os seguintes pares de grupos de doentes: PPAC vs PCCI, PPAC vs

PED e PED vs PCCI. O quarto estudo teve como objetivo construir um único classificador para

classificar o doente tendo em conta os três grupos. Foram aplicados os seguintes métodos de

classificação: NB e MVS sem técnica de seleção de variáveis; Naive Bayes Seletivo (NBS) que

resulta na junção do NB com uma técnica de seleção de variáveis que testa a independência

entre cada variável Xi e a variável da classe C calculando para cada Xi: 2NI(Xi, C), onde N

corresponde ao tamanho da base de dados e I(Xi, C) à informação mútua entre as variáveis Xi

e C (Apenas as variáveis que passaram no teste foram usadas na aprendizagem do classifica-

dor); NB com técnica de seleção de variáveis baseada na correlação (SVC-NB), onde se escolhe

um subconjunto de variáveis tendo em conta o nível de intercorrelação entre as variáveis Xi e

C, e as pontuações mais altas são atribuídas aos subconjuntos que contêm variáveis altamente

correlacionadas com C e têm uma baixa correlação entre elas; A validação dos modelos é efetu-

ada através do procedimento k-fold Cross Validation, onde k tinha o valor 5. Os resultados deste

estudo mostram que os classificadores SVC-NB e NBS são os que apresentam melhor desem-

penho na classificação dos doentes com DP nas diversas categorias que representam os seus

estados cognitivos. Um resultado também interessante deste estudo é o facto dos classificadores

terem maior precisão (diferença significativa) nos casos em que a variável da classe é binária,

visto que em geral é mais simples discriminar entre duas classes do que conseguir um bom clas-

sificador multiclasse e em exemplos com muitas variáveis comuns em problemas clínicos.

Para o diagnóstico de doentes de Alzheimer [26] foi utilizada uma RB. Os dados utilizados

neste estudo foram obtidos através de medições das estruturas do cérebro realizadas através

da ressonância magnética, em conjunto com variáveis clínicas. A RB é composta por 17 variá-

veis discretas mais a variável da classe que tem cinco valores possíveis, (consoante o estado

de demência do doente). Os dados foram recolhidos de 25 indivíduos. O conjunto de treino é

composto por 15 indivíduos e o conjunto de teste composto pelos restantes indivíduos. A RB foi

construída apartir do conjunto de treino através da função de pontuação BD e do método K2 de

procura heurística. O método K2 é uma simplificação do método GHC, onde é introduzida uma

ordem para os nós da rede. Neste estudo verificou-se que as RB são uma boa abordagem para

30

Page 45: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.3 Trabalho Relacionado

problemas de classificação. As RB têm a vantagem de suportar métodos eficientes de inferência

e de conseguir representar associações multivariadas não lineares entre as variáveis.

As RB foram utilizadas em [27] para aprender as dependências entre atributos obtidos de

uma base de dados de fetos com diferentes frequências cardíacas. Neste estudo é comparado o

desempenho de duas RBs: uma construída através do conhecimento do domínio e outra criada

automaticamente a partir do conjunto de dados. A base de dados armazena as medições efetua-

das para as alterações morfológicas para cada feto. Existem no total 12 variáveis discretas, mais

uma variável da classe que representa o estado do feto e que também é discreta. O conjunto de

dados é composto por 830 medições para cada uma das variáveis de 9 fetos diferentes. Para

a RB que foi aprendida através do conjunto de dados foi utilizada a função de pontuação e o

método de procura heurístico K2 para encontrar a melhor estrutura da rede. Os principais resul-

tados deste estudo mostram que as duas abordagens apresentam desempenhos semelhantes,

aproximadamente 80% e 60% de sensibilidade e especificidade, respetivamente. As duas abor-

dagens apresentam também precisões idênticas. A aprendizagem automática da estrutura da

RB dá origem a redes com menos arcos, que conduzem a uma especificação mais eficiente das

probabilidades condicionais.

Em [28] foi estudada a conectividade de várias estruturas do cérebro através das RBD. Os da-

dos utilizados dizem respeito às medições efetuadas à atividade das diversas regiões do cérebro,

durante a execução de uma determinada tarefa. A atividade de uma região do cérebro é dada

pela média das séries temporais provenientes da ressonância magnética para essa região. Deste

modo, cada nó da RBD corresponde a uma região de interesse do cérebro. A estrutura da rede

foi aprendida utilizando o método de amostragem Markov Chain Monte Carlo (MCMC) e a função

de pontuação BD. A rede resultante é estacionária e Markoviana. A robustez desta abordagem

foi mostrada através de experiências com dados sintéticos e com duas bases de dados reais. Na

geração da RBD, o número de regiões do cérebro variou entre 3 e 8 e o comprimento da série

temporal de dados variou de 100 a 600 instantes de tempo cobrindo um total de 300 segundos.

Os principais resultados obtidos neste estudo mostram que as RBDs são mais promissoras e

precisas no estudo da conectividade das várias regiões do cérebro do que os métodos aplicados

anteriormente, incluindo as RB e o método Granger causality mapping (GCM). As RBD superam

as RB porque conseguem lidar com a caraterística temporal dos dados. Conseguem também

modelar conexões recorrentes, caraterística muito importante em sistemas biológicos.

Em [29] foi apresentada uma RBD como método eficaz para demonstrar o enfraquecimento

da conectividade do cérebro em doentes de Parkinson, através da realização de tarefas de mo-

vimento. Neste estudo foram identificadas três regiões de interesse do cérebro, e os dados

31

Page 46: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

correspondem às medições efetuadas para cada uma delas através da ressonância magnética.

Existem seis nós para cada instante de tempo da RBD. Três correspondem às regiões de inte-

resse do cérebro definidas através de variáveis contínuas com uma distribuição Gaussiana, os

restantes três nós são relativos aos sinais de entrada que modelam o comportamento dos do-

entes a realizar as tarefas. As variáveis respetivas dos nós de entrada são discretas e seguem

distribuições multinomiais. A RBD é estacionária e respeita a hipótese de Markov. A aprendi-

zagem da estrutura da rede é feita através do método de amostragem MCMC e os grafos são

amostrados de acordo com a função de pontuação MDL.

A comparação de RBDs estacionárias e não estacionárias foi realizada em [30], no prognós-

tico da mortalidade em unidades de cuidados intensivos (UCI). Para cada doente admitido na

UCI foi feito um registo diário desde o dia de admissão até ao dia em que o doente deixou a UCI.

A base de dados é composta por 11418 registos de 1449 doentes admitidos em 40 UCI diferen-

tes. Cada registo é composto por 31 variáveis, 8 estáticas e 23 com caraterísticas temporais. A

variável da classe indica se o doente sobreviveu ou morreu. As variáveis contínuas foram discre-

tizadas. Os dados foram particionados num conjunto de treino com 949 doentes e num conjunto

de teste com 500 doentes. As RBDs estacionária e não estacionária foram aprendidas apartir

do conjunto de treino utilizando a função de pontuação BD e o método de procura heurístico

GHC. Para aprender a rede não estacionária, o conjunto de treino foi dividido em 33 subcon-

juntos, onde a duração do internamento dos doentes pertencentes ao mesmo subconjunto é a

mesma. Deste modo foi aprendida uma rede para cada subconjunto. Sendo assim, existe uma

rede diferente para cada instante de tempo e cada instante representa um dia. No total existem

33 instantes de tempo. No caso da rede estacionária, a variável da classe pertence ao instante

de tempo n para um doente com n − 1 registos e que se manteve vivo até ao dia n. Neste caso

foi escolhida uma janela temporal com 5 instantes de tempo, onde no quinto instante de tempo

apenas está a variável da classe. Foram escolhidos todos os valores das variáveis temporais

para quatro instantes consecutivos. Os resultados obtidos mostram que a performance da RBD

não estacionária supera a da RBD estacionária para o caso em que temos um conjunto de treino

grande. A combinação de modelos estacionários e não estacionários pode conduzir a um melhor

desempenho em problemas de prognóstico do que a utilização de cada um deles em separado.

Para fazer o prognóstico da doença da apneia do sono [31] foi também utilizada uma RBD

aprendida automaticamente a partir dos dados. Os dados utilizados são provenientes de me-

dições feitas de frequência cardíaca (FC), volume do peito (VP), concentração de oxigénio no

sangue (COS) e o estado do sono (ES). Estas medições foram efetuadas 34000 vezes para um

doente de apneia do sono. A variável ES é discreta e as restantes são contínuas. Todas as

variáveis contínuas foram discretizadas. A ordem das variáveis é dada pela ordem natural das

32

Page 47: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2.4 Sumário

observações. A RBD resultante é semi-Markoviana, visto que, a variável VP(t+1) não depende

apenas da variável VP(t), mas também da variável VP(t−1). A RBD também é não estacioná-

ria porque a sua estrutura é alterada ao longo do tempo. A estrutura é aprendida a partir do

conjunto de dados através da função de pontuação K2 modificada para lidar com observações

que não são distribuídas independentemente. O modelo foi gerado usando as primeiras 27000

observações e foi usado para gerar as últimas 7000 observações, para se poder avaliar o seu

desempenho. Os resultados obtidos mostram que as RBD são um método expressivo, adequado

à modelação de séries de dados temporais, fazer previsões, simulações e controlo em domínios

em que temos algum conhecimento prévio. São modelos explicativos do domínio e não apenas

um modelo descritivo. Facilitam a representação e aquisição de conhecimento e são modelos

capazes de lidar com incerteza.

Charitos et al. [32] apresentam uma RBD para resolver o problema de diagnóstico de pneu-

monia associada à ventilação (PAV) em doentes internados na unidade de cuidados intensivos.

O desempenho obtido pela RBD é comparado ao desempenho de uma RB estática já existente

para resolver o mesmo problema. Neste trabalho é utilizada uma base de dados temporais re-

lativos a 2410 doentes para a construção do modelo dinâmico. Cada instância corresponde à

observação de um doente durante um dia na unidade de cuidados intensivos. As probabilida-

des e a estrutura da RBD são obtidas através de especialistas com conhecimento no domínio

do problema. A RBD é Markoviana. Cada instante de tempo na rede tem 30 variáveis e repre-

senta 24 horas. A inferência é feita através do algoritmo Interface [1], uma extensão ao algoritmo

Junction Tree [1]. O desempenho da RBD é avaliado para uma amostra de 20 doentes do total

de um grupo de 487 doentes admitidos na unidade de cuidados intensivos por um período de

10 ou mais dias. Dos 20 doentes, 5 estavam diagnosticados com PAV. Destes 5 doentes foram

usados os dados recolhidos desde o dia da admissão até ao dia que foi diagnosticado PAV. Para

cada um destes 5 doentes, foram escolhidos 3 doentes com o mesmo sexo, mesmo número de

dias com ventilação e presentes na mesma enfermaria e que não tinham PAV. Os principais re-

sultados obtidos mostram que a RBD é melhor para distinguir entre doentes com PAV daqueles

que não têm PAV comparativamente à RB estática. O diagnóstico tendo em conta o historial do

doente apresenta melhor desempenho do que no modelo que utiliza uma RB estática, onde o

diagnóstico é feito tendo em conta apenas as observações atuais.

2.4 Sumário

Neste Capítulo é dada uma breve descrição da Esclerose Lateral Amiotrófica. São abordados

alguns dos métodos probabilísticos baseados em grafos utilizados na extração de conhecimento,

a partir de grandes conjuntos de dados, nomeadamente, as RB e as RBD. A aprendizagem das

33

Page 48: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

2. Revisão da Literatura

RB e RBD a partir dos dados e a maneira de como é feita a inferência em cada uma delas

são também explicadas neste capítulo. Os classificadores NB e TAN, baseados em RB são

introduzidos neste Capítulo. É feito um resumo de alguns dos trabalhos realizados na área da

medicina, mais especificamente, na aplicação destes métodos em problemas de classificação.

Também são apresentados alguns trabalhos efetuados em ELA.

34

Page 49: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3Prever Insuficiência Respiratória

em Doentes de ELA

Contents3.1 Descrição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.3 Classificador dinâmico baseado em RBD . . . . . . . . . . . . . . . . . . . . . 413.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.5 Discussão dos resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.6 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

35

Page 50: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

Para o prognóstico de insuficiência respiratória em doentes com ELA, foi implementado um

método de classificação dinâmico baseado em RBD, com o objetivo de identificar quais os do-

entes que estarão em insuficiência respiratória no instante de tempo seguinte ao instante da

avaliação. O tempo decorrido entre instantes consecutivos corresponde a cada uma das janelas

temporais consideradas: 90, 180 ou 365 dias. Contrariamente aos métodos estáticos de classi-

ficação NB e RB, onde cada observação do doente é assumida independente das restantes, o

método dinâmico assume que uma observação de um doente, num dado instante, depende das

observações do mesmo doente realizadas anteriormente. Os dados utilizados na classificação

são descritos de seguida.

3.1 Descrição dos Dados

Os dados utilizados encontram-se no formato de valores separados por vírgulas e separados

em três ficheiros, um para cada uma das janelas temporais de 90, 180 e 365 dias. A seleção das

observações por doente e a divisão dos dados por janela foram realizados num trabalho ante-

rior [24]. Os dados resultam do seguimento de 517 doentes com ELA na unidade Neuromuscular

do Hospital de Santa Maria em Lisboa, durante um período de 10 anos. O conjunto de dados

contêm no total 29 atributos correspondentes à informação demográfica, resultados da execução

de testes respiratórios e avaliações clínicas dos doentes, mais a variável da classe Evolução que

assume dois valores possíveis: 1 se o doente entra num estado de insuficiência respiratória e

necessita da aplicação de NIV; 0, se respira sem problemas. Das 30 variáveis, 23 são contínuas

e 7 são discretas. A estrutura dos dados está representada no exemplo da Figura 3.1, onde

temos 10 observações para 3 doentes distintos.

Figura 3.1: Exemplo da estrutura dos dados.

Cada linha da tabela representa uma observação diferente. A primeira coluna identifica o

doente a que pertence a observação, e as restantes colunas o valor observado para cada uma

das variáveis. A última coluna corresponde à variável da classe. Os doentes com identificadores

36

Page 51: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.2 Metodologia

1, 2 e 3 têm três, quatro e duas observações, respetivamente. Repare que, a última observação

dos doentes com identificadores 2 e 3, tem o valor 1 para a variável da classe (Evolução). Isto

significa que os doentes 2 e 3 entraram num estado de insuficiência respiratória, numa janela

de k dias, onde k corresponde à janela temporal do respetivo conjunto de dados. Na Tabela 3.1

são apresentados os detalhes dos dados para as diferentes janelas temporais. Embora pos-

sam existir observações do mesmo doente estas são usadas ou em treino ou em teste e nunca

simultaneamente em treino e teste.

K (dias) Nr. Observações Valores em falta (%) Com Evolução Sem Evolução90 1487 32,43 337 1150180 1410 32,2 518 892365 1277 31,73 754 523

Tabela 3.1: Detalhes dos dados por janela temporal (90, 180 e 365 dias).

3.2 Metodologia

Na classificação dos doentes de ELA, explicada com maior detalhe na Secção 3.2.2 foram uti-

lizados alguns dos classificadores estáticos implementados no WEKA [33] e três classificadores

dinâmicos baseados em RBD implementados nesta tese a partir da implementação dos classifi-

cadores base do WEKA. Estes três últimos classificadores são as principais contribuições deste

trabalho. Na Secção 3.3 são introduzidos os classificadores baseados em RBD e apresentadas

as diferenças entre os três classificadores implementados. A metodologia utilizada encontra-se

esquematizada na Figura 3.2.

Figura 3.2: Plano de trabalho adotado para a classificação dos doentes de ELA. Para equilibrar onúmero de instâncias pertencente a cada classe, foi aplicada a técnica Synthetic Minority Over-sampling Technique (SMOTE) [2], explicada na Secção 3.2.3.

Antes da classificação ser executada, os dados foram submetidos a um pré processamento,

que está descrito na Secção 3.2.1.

37

Page 52: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

3.2.1 Pré processamento

Na classificação assume-se que os conjuntos de dados têm o mesmo número de observa-

ções por doente, não têm valores em falta e são discretos. Para tal, foram aplicadas algumas

transformações aos dados, descritas de seguida.

3.2.1.A Seleção das observações

A seleção das observações por doente pode ser feita de duas formas. A primeira consiste em

especificar um intervalo através da definição dos seus limites inferior e superior. Por exemplo, se

definirmos o intervalo com limite inferior igual a dois e limite superior igual a quatro, são esco-

lhidas a segunda, terceira e quarta observações para todos os doentes com pelo menos quatro

observações. Os doentes com menos de quatro observações são removidos. A segunda forma

consiste em selecionar as últimas N observações de cada doente (N > 0). Neste caso são esco-

lhidas as últimas N observações dos doentes com pelo menos N observações, sendo removidos

os restantes. Na Figura 3.3 e 3.4 são exemplificadas a seleção das observações dos doentes

através da definição de um intervalo e a seleção das últimas N observações, respetivamente.

Figura 3.3: Exemplo da seleção das observações dos doentes através da definição de um inter-valo. Neste exemplo os limites inferior e superior são definidos como 2 e 4, respetivamente. Àesquerda está representado um exemplo de um conjunto de dados e à direita o conjunto resul-tante de aplicar a operação de seleção.

No exemplo da Figura 3.3, apenas o doente com identificador 3 não foi removido porque era

o único que tinha pelo menos quatro observações, tendo sido escolhidas as suas segunda, ter-

ceira e quarta observações conforme o especificado pelo intervalo. No exemplo da Figura 3.4,

o único doente removido foi o com identificador 2 porque era o único que tinha menos de três

observações. Dos restantes, foram selecionadas as últimas três. Como o doente 1 tem apenas

três observações, selecionar as suas últimas três é o mesmo que selecionar as suas primeiras

três observações. Depois de algumas experiências, nomeadamente, a seleção das primeiras

três, das primeiras cinco, das terceira, quarta e quinta observações, das últimas quatro e das

últimas três, verificou-se que a seleção das primeiras cinco observações conduziam aos melho-

res resultados. Na Tabela 3.2 estão descritos os conjuntos de dados para cada janela temporal,

38

Page 53: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.2 Metodologia

Figura 3.4: Exemplo da seleção das últimas N observações de cada doente. Neste exemplo,N = 3. À esquerda está representado um exemplo de um conjunto de dados e à direita oconjunto resultante de aplicar a operação de seleção.

depois de selecionadas as primeiras cinco observações para cada doente.

K (dias) Nr. Observações Valores em falta (%) Com Evolução Sem Evolução90 575 32,57 41 534180 535 32,67 79 456365 485 32,53 175 310

Tabela 3.2: Detalhes dos dados por janela temporal (90, 180 e 365 dias), depois de selecionadasas primeiras 5 observações de cada doente.

3.2.1.B Substituição dos valores em falta e discretização dos dados

Para reduzir a complexidade do problema, todos os atributos contínuos foram discretizados.

Na Tabela 3.3 estão representados os intervalos definidos para cada uma das variáveis contí-

nuas. O método utilizado foi o da discretização não supervisionada implementada no Weka [33].

O número máximo de intervalos permitido foi estabelecido em três. Antes da discretização,

todos os valores em falta foram substituídos. A estratégia utilizada está implementada no Weka

e consiste em substituir os valores, no caso de atributos numéricos, com a média dos valores

presentes no conjunto de treino para esse atributo, e com a moda dos valores, no caso de ser

um atributo nominal.

3.2.2 Classificação

Na classificação foram utilizados os classificadores estáticos NB, RB com os métodos de

procura GHC, K2 e TAN, implementados no WEKA e três classificadores dinâmicos baseados

em RBD. Para evitar a adaptação dos classificadores aos conjuntos de dados (overfitting), foi

utilizado o método de validação cruzada. Neste método o conjunto de dados é dividido em k

subconjuntos. Cada subconjunto k é utilizado para teste uma única vez. Em cada iteração, o

classificador é treinado com os k − 1 subconjuntos e testado com o subconjunto k. Os resulta-

dos finais são obtidos através da média dos resultados obtidos para cada subconjunto de teste.

39

Page 54: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

Atributo IntervalosBMI ≤ 24, 6; 24, 6− 31, 5;> 31, 5Age at onset ≤ 46, 7; 46, 7− 64, 3;> 64, 31st symptoms - 1st visit ≤ 81, 4; 81, 4− 162, 7;> 162, 7ALS-FRS ≤ 18, 3; 18, 3− 28, 7;> 28, 7ALS-FRS-R ≤ 25; 25− 36;> 36ALS-FRSb ≤ 4; 4− 8;> 8R ≤ 9, 3; 9, 3− 10, 7;> 10, 7SpO2mean ≤ 93, 7; 93, 7− 96, 5;> 96, 5SpO2min ≤ 59, 7; 59, 7− 77, 3;> 77, 3SpO2< 90 ≤ 12, 6; 12, 6− 25, 3;> 25, 3Dips/h<4 ≤ 31, 4; 31, 4− 62, 9;> 62, 9VC ≤ 64, 1; 64, 1− 98, 2;> 98, 2FVC ≤ 46, 7; 46, 7− 91, 4;> 91, 4MIP ≤ 47, 4; 47, 4− 87, 7;> 87, 7MEP ≤ 76, 1; 76, 1− 136, 1;> 136, 1P0.1 ≤ 113, 8; 113, 8− 213, 4;> 213, 4PO2 ≤ 80, 4; 80, 4− 96, 8;> 96, 8PCO2 ≤ 35, 3; 35, 3− 42, 5;> 42, 5PhrenMeanLat ≤ 6, 4; 6, 4− 9;> 9PhrenMeanAmpl ≤ 0, 5; 0, 5− 0, 9;> 0, 9PhrenMeanArea ≤ 5; 5− 9, 6;> 9, 6

Tabela 3.3: Intervalos de discretização obtidos para as variáveis contínuas.

Os subconjuntos foram criados automaticamente pelo Weka para os classificadores estáticos e

manualmente para os classificadores dinâmicos. A criação manual dos subconjuntos foi neces-

sária para garantir que todas as observações de um doente estivessem presentes no mesmo

subconjunto.

3.2.3 SMOTE

Como existem muito mais instâncias pertencentes à classe que não tem evolução do que à

classe com evolução, foi aplicado SMOTE [2] ao conjunto de treino, uma técnica de criação de

instâncias sintéticas através da amostragem da classe minoritária, tendo em conta os k vizinhos

mais próximos. O objetivo da aplicação desta técnica é equilibrar o número de instâncias perten-

centes a cada uma das classes. Um dos parâmetros utilizados é a percentagem de SMOTE que

indica o número de instâncias que pretendemos criar. Por exemplo, se tivermos 10 instâncias da

classe minoritária e se a percentagem de SMOTE for 100%, o número de instâncias da classe

minoritária passa para o dobro, ou seja, passa a ser 20. A percentagem de SMOTE foi calculada

de forma a igualar o número de instâncias em cada classe, através da seguinte expressão:

PSMOTE =(max−min) ∗ 100

min, (3.1)

onde max e min correspondem ao número de instâncias da classe maioritária e minoritária,

respetivamente. SMOTE foi aplicado apenas se min ≥ 2. As instâncias são criadas através da

40

Page 55: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.3 Classificador dinâmico baseado em RBD

diferença dos valores da instância em consideração e dos valores do seu vizinho mais próximo.

A diferença é multiplicada por um número aleatório entre 0 e 1 e é adicionada à instância em

consideração. O número de vizinhos utilizado foi 5.

3.2.4 Avaliação

Na avaliação do desempenho do classificador recorre-se frequentemente à matriz confusão

para analisar quão bem o classificador discrimina as instâncias de diferentes classes. Um exem-

plo de uma matriz de confusão para um problema onde a variável da classe assume dois valores

possíveis: C e ¬C é apresentado na Tabela 3.4. Verdadeiros positivos (VP) são as instâncias

positivas corretamente classificadas. Verdadeiros negativos (VN) são as instâncias negativas

corretamente classificadas. Falsos positivos (FP) são instâncias negativas classificadas como

positivas e falsos negativos (FN) são instâncias positivas classificadas como negativas.

C ¬CC VP FN¬C FP VN

Tabela 3.4: Exemplo de uma matriz confusão.

Um classificador ideal é aquele que consegue discriminar corretamente todas as instâncias,

ou seja, cujo o número de FP e FN da sua matriz confusão é igual a zero.

A precisão do classificador é medida através da razão entre o número de instâncias classificadas

corretamente e o número total de instâncias, e é dada pela seguinte expressão:

precisao =V P + V N

V P + V N + FP + FN. (3.2)

A sensibilidade do classificador diz respeito à quantidade de instâncias classificadas como per-

tencentes à classe C de entre todas as instâncias que verdadeiramente têm esse valor. É calcu-

lada através da seguinte equação:

sensibilidade =V P

V P + FN. (3.3)

A especificidade é a taxa de VN, ou seja, o número de instâncias classificadas como não per-

tencentes à classe C de entre todas as que não pertencem verdadeiramente à classe C e é

calculada da seguinte forma:

especificidade =V N

V N + FP. (3.4)

3.3 Classificador dinâmico baseado em RBD

A principal diferença entre um classificador dinâmico baseado em RBD (cdRBD) e os clas-

sificadores estáticos descritos nas Secções 2.2.5 2.2.6, é o facto de o classificador dinâmico

41

Page 56: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

assumir que uma observação num determinado instante depende das observações dos instan-

tes anteriores. Um cdRBD é composto por uma RB inicial (RBI) e uma RB condicional (RBC). O

diagrama UML do cdRBD implementado nesta tese está representado na Figura 3.5.

Figura 3.5: Diagrama UML com uma visão geral da hierarquia de classes do classificador dinâ-mico.

A RBI é aprendida utilizando um dos métodos de aprendizagem de RB implementados no

Weka, nomeadamente, TAN, GHC ou K2. Na aprendizagem da RBI são utilizadas todas as

instâncias do primeiro instante de tempo. A RBC é aprendida com o método GHC dinâmico.

Este método difere do método GHC descrito na Secção 2.2.3 nos seguintes aspetos:

• São permitidas apenas as operações de adição e remoção de arcos;

• Apenas são permitidos arcos das variáveis do instante de tempo t para as variáveis do

instante de tempo t+ 1.

A aprendizagem da RBC é feita através de um conjunto de T − 1 amostras de transição, onde

T corresponde ao número de instantes de tempo. A RBC é constante para todos os instantes de

tempo. Na aprendizagem de ambas as redes podem ser utilizadas qualquer uma das funções

de pontuação implementadas no Weka, nomeadamente, BDeu, MDL, AIC e função de pontu-

ação baseada na entropia Secção 2.2.3. O método de construção das amostras de transição

é explicado na próxima Secção. A Secção 3.3.2 explica como é feita a classificação. As dife-

rentes implementações de um classificador baseado em RBD, nomeadamente, o classificador

dinâmico baseado em RBD padrão (cdRBDp), o classificador dinâmico baseado em RBD com

arcos no mesmo instante de tempo (cdRBDia) e o classificador baseado em RBD com os arcos

42

Page 57: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.3 Classificador dinâmico baseado em RBD

frequentes (cdRBDfa), são descritos nas Secções 3.3.3, 3.3.4 e 3.3.5, respetivamente. As várias

implementações diferem apenas na estratégia utilizada na aprendizagem da RB condicional.

3.3.1 Amostras de transição

Para simplificar a construção das amostras de transição, todas as instâncias são separadas

pelos respetivos instantes de tempo e guardadas num vetor com tamanho T , onde T corres-

ponde ao número de instantes de tempo. Na Figura 3.6 é mostrado um exemplo de um vetor de

instâncias para N doentes com T observações.

Figura 3.6: Exemplo de um vetor de N instâncias organizadas em T instantes de tempo.

As amostras de transição são construídas unindo, para todo o i ∈ {0, ..., T − 2}, os conjuntos

de instâncias dos instantes i e i+ 1, como está exemplificado na Figura 3.7.

Figura 3.7: Exemplo da construção de uma instância da amostra de transição, através da junçãodas instâncias de dois instantes de tempo consecutivos. A amostra de transição é obtida atravésda repetição do procedimento, para todas as instâncias.

Cada instância de uma amostra de transição é obtida da seguinte forma:

1. O atributo da classe da instância que pertence ao instante de tempo i e o identificador da

43

Page 58: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

instância que pertence ao instante i+ 1 são removidos;

2. Juntam-se os atributos das duas instâncias numa nova instância;

3. Em cada atributo é colocado um prefixo no nome a indicar o instante de tempo a que

pertence.

É através do prefixo colocado no nome das variáveis que o método de procura da RB con-

dicional consegue selecionar apenas os arcos das variáveis do instante i para as variáveis do

instante i+ 1.

3.3.2 Classificação

A classificação com o classificador dinâmico, é feita de modo semelhante à classificação com

classificadores estáticos, sendo escolhido o valor da variável da classe que dá origem à maior

probabilidade como resultado da classificação. O método utilizado para calcular a probabilidade

é explicado com base no exemplo da Figura 3.8, onde são dadas N instâncias, e a variável da

classe assume k valores possíveis. A lista de instâncias recebida, corresponde ao conjunto de

Figura 3.8: Ilustração do método utilizado para a classificação de um doente com o classifica-dor dinâmico, tendo em conta todas as suas observações. Neste exemplo cada doente tem Nobservações e variável da classe assume k valores possíveis.

observações de um determinado doente, em que todos os valores são observados exceto o valor

da classe para o último instante de tempo. As instâncias utilizadas para o cálculo da probabilidade

com a RB condicional são juntas recorrendo ao mesmo procedimento utilizado na criação de

instâncias para as amostras de transição (Figura3.7). Como todos os valores da variável da

classe são conhecidos em todos os instantes exceto no último, as probabilidades obtidas na

entrada do vetor respetiva ao valor da classe observado são multiplicadas. O resultado obtido

é multiplicado pela probabilidade de ser observado, no último instante, cada um dos k valores

possíveis da variável da classe. O valor k que der origem à maior probabilidade é escolhido

como resultado da classificação. As probabilidades calculadas para cada valor da classe, tendo

em conta a estrutura da rede e os valores observados foram obtidos através das funcionalidades

44

Page 59: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.4 Resultados

implementadas no Weka, onde é permitido aceder às tabelas de probabilidade condicionais de

cada nó da rede, e obter a sua probabilidade dada a configuração de valores dos seus nós pai.

3.3.3 Classificador cdRBDp

Este classificador aprende, para cada amostra de transição, uma RB utilizando o método

GHC dinâmico descrito anteriormente. A aprendizagem da RB em cada amostra de transição

tem como ponto de partida a estrutura da RB aprendida na amostra de transição anterior. A RBC

corresponde à RB resultante na última amostra de transição. Neste classificador, a RBC tem

apenas os arcos que ligam variáveis do instante i para o instante i+ 1.

3.3.4 Classificador cdRBDia

A ideia subjacente a este classificador consiste em adicionar os arcos que ligam variáveis do

mesmo instante de tempo à RBC. O classificador começa por aprender a RBC da mesma forma

que o classificador cdRBDp, e de seguida, aprende uma RB para cada instante de tempo, com o

objetivo de obter os arcos que ligam variáveis do mesmo instante, tendo em conta apenas o con-

junto de instâncias desse mesmo instante. A estrutura da RB aprendida para um dado instante

tem como ponto de partida a RB aprendida no instante anterior, convergindo quando tiverem

sido aprendidas para todos os instantes de tempo. De seguida são adicionados todos os arcos

da RB à RBC, no instante i+ 1, sendo utilizada a funcionalidade do Weka que permite modificar

os conjuntos de nós pai para cada nó da RB e de voltar a estimar as tabelas de probabilidades

condicionais para refletir essas alterações. A aprendizagem dos dois tipos de arcos é feita de

forma independente.

3.3.5 Classificador cdRBDfa

Ao contrário dos classificadores anteriores, este classificador aprende uma nova RB para

cada amostra de transição. Os arcos de cada RB obtida são contabilizados numa matriz de

dimensão N ×N , onde N corresponde ao número de atributos. Todas as entradas da matriz são

inicializadas a zero. Por cada arco aprendido na RB atualiza-se o contador respetivo na matriz.

Depois de aprendidas as RB para todos os instantes de tempo, são selecionados apenas os

arcos que apareceram em pelo menos metade das RB aprendidas, para fazerem parte da RBC.

Posteriormente, são aprendidos e adicionados os arcos que ligam variáveis do mesmo instante

de tempo à RBC, seguindo o mesmo procedimento utilizado no cdRBDia.

3.4 Resultados

Os resultados da classificação, para os conjuntos de dados correspondentes às janelas tem-

porais de 90, 180 e 365 dias são apresentados nas Figuras 3.9, 3.10 e 3.11, respetivamente. A

45

Page 60: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

função de pontuação utilizada foi MDL. Na aprendizagem das RB, cada nó da rede podia ter no

máximo dois pais. Nos classificadores dinâmicos, o método de procura utilizado na aprendiza-

gem da RBI foi a TAN e na aprendizagem da RBC o GHC dinâmico.

3.5 Discussão dos resultados

Os resultados obtidos são bastante animadores, melhorando significativamente em relação

aos resultados obtidos no trabalho anterior [24] onde foi abordado o mesmo problema e utilizado o

mesmo tipo de dados. O classificador cdRBDia é o que apresenta melhor desempenho, tendo em

conta os critérios de avaliação utilizados (precisão, sensibilidade e especificidade) para os dados

de todas as janelas temporais. O classificador que consegue obter um desempenho próximo do

classificador cdRBDia é o cdRBDfa, tendo também em conta todos os critérios de avaliação e

todas as janelas temporais. Estes dois classificadores superam os restantes com uma margem

bastante confortável (mais de 10% em todos os conjuntos de dados). O classificador cdRBDp

é o que apresenta um desempenho mais baixo de entre os classificadores dinâmicos. Este

classificador, dos três dinâmicos, é o único que não inclui os arcos que ligam variáveis no mesmo

instante de tempo na RBC, revelando a elevada importância da presença deste tipo de arcos

na RBC, fazendo com que o classificador alcance um melhor desempenho na classificação. Os

classificadores dinâmicos mostram ter uma maior capacidade para identificar os doentes com

evolução, caraterística muito importante para o problema abordado neste trabalho.

3.6 Sumário

Neste Capítulo foram introduzidos os três classificadores dinâmicos baseados em RBD im-

plementados utilizando o Weka. O classificador cdRBDp contém apenas os arcos entre variáveis

de instantes diferentes na RBC, enquanto que, os classificadores cdRBDia e cdRBDfa também

incluem, na RBC, os arcos sobre variáveis do mesmo instante de tempo. O classificador cdRBDfa

difere do cdRBDia porque na RBC apenas estão os arcos que apareceram, pelo menos em, me-

tade das RB aprendidas. As várias etapas da classificação também são descritas neste Capítulo,

entre elas, o processamento dos dados, a seleção das observações e a validação dos classifica-

dores. O desempenho dos classificadores foi avaliado tendo em conta a precisão, sensibilidade

e especificidade. No final do Capítulo são apresentados e discutidos os principais resultados

obtidos.

46

Page 61: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3.6 Sumário

Figura 3.9: Resultados da classificação para os dados correspondentes à janela temporal de 90dias. Foram utilizados os classificadores dinâmicos cdRBDp, cdRBDia e cdRBDfa e os classifi-cadores estáticos NB, GHC, TAN e K2.

Figura 3.10: Resultados da classificação para os dados correspondentes à janela temporal de180 dias.

47

Page 62: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

3. Prever Insuficiência Respiratória em Doentes de ELA

Figura 3.11: Resultados relativos ao desempenho dos classificadores obtidos na classificaçãoutilizando os dados correspondentes à janela temporal de 365 dias.

48

Page 63: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4Aplicação

Contents4.1 Arquitetura da aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.2 Interface com o utilizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.3 Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

49

Page 64: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4. Aplicação

Foi desenvolvida uma aplicação computacional para permitir testar os diferentes modelos de

classificação obtidos para prever insuficiência respiratória em doentes de ELA e visualizar os re-

sultados obtidos. A arquitetura escolhida para a aplicação foi a Modelo-Vista-Controlador (MVC).

Esta arquitetura permite desacoplar o modelo de toda a lógica de interação com o utilizador, tor-

nando a aplicação mais flexível e facilmente integrada com outros sistemas. O modelo pode ser

facilmente modificado através da inclusão de novas funcionalidades ou da alteração das funcio-

nalidades existentes, com um impacto mínimo nos restantes módulos da aplicação. A arquitetura

é descrita com maior detalhe na Secção 4.1. Durante o desenvolvimento da aplicação, uma das

considerações foi a possibilidade da aplicação poder ser utilizada na classificação de diferentes

problemas com dados diferentes, desde que o formato de entrada dos dados seja respeitado. Na

Secção 4.2 são explicadas as interações mais importantes com a aplicação.

4.1 Arquitetura da aplicação

Na Figura 4.1 estão representados os principais módulos da aplicação, as principais intera-

ções entre eles e de que forma é respeitada a arquitetura MVC.

Figura 4.1: Esquema com a arquitetura da aplicação.

Os três módulos principais da aplicação são:

• Vista: Conjunto de páginas JSP geradas dinamicamente no servidor com os dados atuali-

zados para serem mostrados ao cliente. É através destas páginas que o utilizador interage

com a aplicação;

• Controladores: Java Servlets que correm no servidor aplicacional Tomcat 7.0 e que per-

mitem a geração das páginas JSP. Os Servlets são a ponte entre o cliente e o modelo.

Recebem o pedido HTTP do cliente, manipulam os dados do modelo necessários para

50

Page 65: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4.2 Interface com o utilizador

atender o pedido e preparam a resposta para ser enviada para o cliente e mostrada numa

página JSP;

• Modelo: Corresponde à funcionalidade essencial da aplicação e que envolve a manipulação

dos dados, nomeadamente, os classificadores dinâmicos implementados neste trabalho, as

funcionalidades do Weka que serviram de suporte à criação dos classificadores e toda a

comunicação com a base de dados abstraída pelo Weka.

4.2 Interface com o utilizador

A aplicação disponibiliza uma interface simples para permitir ao utilizador testar os vários

classificadores de forma simples e rápida. A interface contém apenas o essencial para que os

vários classificadores possam ser experimentados e para que os resultados sejam facilmente

visualizados. De seguida é dada uma breve explicação de como deve ser utilizada a aplicação.

Na Figura 4.2 está ilustrado o ecrã da aplicação para fazer o carregamento do ficheiro com os

dados para o servidor. Para escolher o ficheiro de dados de um diretório local e confirmar o seu

carregamento para o servidor são clicados os botões assinalados em (1) e (2), respetivamente.

No ecrã do processamento dos dados, ilustrado na Figura 4.3, é possível visualizar os dados na

Tabela identificada em (1). Os dados são atualizados à medida que é realizado o processamento.

O número de observações por doente e os limites inferior e superior do intervalo de tempo são

especificados em (2). A escolha dos filtros a serem aplicados nos dados e das variáveis pretendi-

das para a classificação está ilustrada em (3) e (4), respetivamente. O pedido de processamento

dos dados é efetuado depois de clicado o botão em (5). No caso de ser necessário recuperar

os dados originais tem de ser clicado o botão em (6). Na Figura 4.4 estão ilustrados os passos

necessários para ser efetuada a classificação. O classificador é escolhido tendo em conta uma

das opções da caixa de seleção assinalada em (1). Os parâmetros do classificador são definidos

em (2). Tendo estes sido escolhidos procede-se à classificação clicando em (3). A organização

dos resultados é apresentada na Figura 4.5. Os resultados obtidos, os detalhes do classificador

e dos dados utilizados na classificação são apresentados em (1). Em (2), são mostradas as

estruturas das redes.

4.3 Sumário

Neste Capítulo foi introduzida a aplicação desenvolvida durante o trabalho. A arquitetura

escolhida para a aplicação foi a Modelo-Vista-Controlador, para tornar a aplicação mais flexível e

fácil de ser integrada em outros sistemas. Foi também dada uma breve explicação das possíveis

interações do utilizador com a aplicação, através da apresentação dos principais ecrãs.

51

Page 66: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4. Aplicação

Figura 4.2: Ecrã da aplicação utilizado para carregar os dados no servidor.

Figura 4.3: Ecrã da aplicação utilizado para processar os dados.

52

Page 67: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4.3 Sumário

Figura 4.4: Ecrã da aplicação utilizado para escolher o classificador e os vários parâmetros.

Figura 4.5: Ecrã da aplicação onde são apresentados os resultados obtidos na classificação.

53

Page 68: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

4. Aplicação

54

Page 69: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

5Conclusões e Trabalho Futuro

55

Page 70: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

5. Conclusões e Trabalho Futuro

Neste trabalho foi abordado o problema de prever insuficiência respiratória em doentes de

ELA, tendo em conta janelas temporais de 90, 180 e 365 dias. O problema foi tratado como um

problema de classificação, num contexto de aprendizagem automática. Os dados utilizados são

reais, obtidos através do acompanhamento de 517 doentes de ELA na unidade Neuromuscular

do Hospital de Santa Maria em Lisboa. Antes de serem utilizados na classificação, os valores em

falta nos dados foram todos preenchidos. Para cada atributo numérico, foram preenchidos os va-

lores em falta desse atributo, com a média dos valores nos dados para esse atributo. Os valores

em falta dos atributos nominais foram preenchidos com a moda dos valores, de forma análoga.

As variáveis contínuas foram discretizadas com o método de discretização não supervisionado

implementado no Weka, onde podiam ser obtidos no máximo, 3 intervalos de discretização para

cada variável. Para evitar a adaptação aos dados, os classificadores foram treinados e testados

através do método de validação cruzada (k = 10). A aplicação de SMOTE ao conjunto de treino,

para equilibrar o número de instâncias em cada uma das classes teve um impacto positivo nos

resultados obtidos, visto que, no nosso caso existia uma grande diferença no número de instân-

cias em cada classe.

Para lidar com o problema seguimos uma estratégia dinâmica, ou seja, uma estratégia na

qual todo o histórico de observações de um doente é tido em conta. Deste modo, assume-se que

uma observação de um doente num determinado instante depende de todas as observações

anteriores do mesmo doente. Nos classificadores estáticos as caraterísticas temporais dos da-

dos não são modeladas, ou seja, observações de um doente em diferentes instantes de tempo

são vistas como observações de doentes diferentes. Para ser testado o desempenho de uma

estratégia dinâmica no problema abordado, foram implementados três classificadores dinâmicos

baseados em RBD. O melhor classificador alcançou uma precisão, sensibilidade e especificidade

de 93.9%, 92.6% e 94.3%, respetivamente. Neste trabalho, os resultados obtidos pelos classi-

ficadores dinâmicos superaram os resultados obtidos pelos classificadores estáticos NB, TAN,

GHC e K2, mostrando uma maior eficácia da estratégia dinâmica em relação aos métodos estáti-

cos, para este problema. O classificador cdRBDp foi o que obteve piores resultados, de entre os

três classificadores dinâmicos, com um desempenho próximo ao dos classificadores estáticos. O

classificador cdRBDp é o único que não tem os arcos que ligam variáveis do mesmo instante de

tempo na RBC, revelando ser muito importante a inclusão deste tipo de arcos na RBC, para um

melhor desempenho dos classificadores.

Como a utilização dos classificadores dinâmicos baseados em RBD obtiveram bons resul-

tados, futuramente podem ser experimentadas novas variantes deste tipo de classificadores. A

estrutura da RBC pode variar para diferentes instantes de tempo. Os arcos presentes na RBC

podem ligar variáveis, não só do mesmo instante e de instantes consecutivos, mas também

56

Page 71: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

variáveis mais distantes no tempo. Poderiam ser desenvolvidos novos métodos de procura e

funções de pontuação para tentar encontrar novas relações entre as variáveis e, por consequên-

cia, melhorar os resultados obtidos. Uma abordagem possível para a procura da estrutura das

redes seria efetuar uma procura em árvore, onde as melhores N alternativas seriam guardadas.

Quando não fosse possível melhorar a pontuação da rede encontrada, recomeçava-se da alter-

nativa mais promissora. O parâmetro N podia variar com o nível de profundidade na árvore.

Teriam de ser adotadas estratégias para controlar o fator de ramificação muito elevado neste tipo

de problema. A discretização dos dados foi feita automaticamente pelo o Weka, mas poderia ser

feita através do conhecimento do domínio do problema. Poderiam também ser aplicadas técnicas

de seleção de variáveis e novas formas de substituir os valores em falta no conjunto de dados.

57

Page 72: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

5. Conclusões e Trabalho Futuro

58

Page 73: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Bibliografia

[1] K. P. Murphy, “Dynamic bayesian networks: representation, inference and learning,” Ph.D.

dissertation, University of California, Berkeley, 2002.

[2] N. V. C. et. al., “Synthetic minority over-sampling technique,” Journal of Artificial Intelligence

Research, vol. 16, pp. 321–357, 2002.

[3] L. C. Wijesekera and P. N. Leigh, “Amyotrophic lateral sclerosis.” Orphanet journal of rare

diseases, vol. 4, p. 3, Jan. 2009.

[4] S. N. Rowland LP, “Amyotrophic lateral sclerosis.” The New England Journal of Medicine,

2001.

[5] S. Pinto, A. Turkman, A. Pinto, M. Swash, and M. de Carvalho, “Predicting

respiratory insufficiency in amyotrophic lateral sclerosis: the role of phrenic nerve

studies.” Clinical neurophysiology : official journal of the International Federation of

Clinical Neurophysiology, vol. 120, no. 5, pp. 941–6, May 2009. [Online]. Available:

http://www.ncbi.nlm.nih.gov/pubmed/19342290

[6] A. S. HaverKamp LJ, Appel V, “Natural history of amiotrophic lateral sclerosis in a database

population. Validation of a scoring system and a model for survival prediction,” 1995.

[7] M. Cudkowicz, M. Qureshi, and J. Shefner, “Measures and markers in amyo-

trophic lateral sclerosis.” NeuroRx : the journal of the American Society for

Experimental NeuroTherapeutics, vol. 1, no. 2, pp. 273–83, Apr. 2004. [Online]. Avai-

lable: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=534944&tool=pmcentrez&

rendertype=abstract

[8] J. Pearl, Probablistic Reasoning in Intelligent Systems: Networks of Plausible Inference.

Morgan Kaufmann Publishers, 1988.

[9] E. Charniak, “Bayesian networks without tears.” AI magazine, 1991. [Online]. Available:

http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/918

59

Page 74: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Bibliografia

[10] G. F. Cooper, “The computational complexity of probabilistic inference using bayesian belief

networks,” Artificial Intelligence, vol. 42, no. 23, pp. 393 – 405, 1990. [Online]. Available:

http://www.sciencedirect.com/science/article/pii/000437029090060D

[11] P. Dagum and M. Luby, “Approximating probabilistic inference in bayesian belief networks is

np-hard,” Artif. Intell., vol. 60, no. 1, pp. 141–153, 1993.

[12] W. Lam and F. Bacchus, “Learning Bayesian Belief Networks: an Approach Based on the

MDL Principle,” Computational Intelligence, vol. 10, no. 3, pp. 269–293, Aug. 1994. [Online].

Available: http://doi.wiley.com/10.1111/j.1467-8640.1994.tb00166.x

[13] G. F. Cooper and E. Herskovits, “A Bayesian method for the induction of probabilistic

networks from data,” Machine Learning, vol. 9, no. 4, pp. 309–347, Oct. 1992. [Online].

Available: http://link.springer.com/10.1007/BF00994110

[14] D. Chickering, D. Heckerman, and C. Meek, “A Bayesian approach to learning Bayesian

networks with local structure,” Proceedings of the Thirteenth . . . , pp. 80–89, 1997. [Online].

Available: http://dl.acm.org/citation.cfm?id=2074236

[15] P. Domingos and M. Pazzani, “On the optimality of the simple Bayesian classifier under

zero-one loss,” Machine learning, vol. 130, pp. 103–130, 1997. [Online]. Available:

http://link.springer.com/article/10.1023/A:1007413511361

[16] N. Zhang and D. Poole, “A simple approach to Bayesian network computations,” in

Proceedings of the Tenth Canadian Conference on Artificial Intelligence, 1994, pp. 171–178.

[17] N. Friedman, K. Murphy, and S. Russell, “Learning the structure of dynamic

probabilistic networks,” Proceedings of the Fourteenth, vol. 0, 1998. [Online]. Available:

http://dl.acm.org/citation.cfm?id=2074111

[18] J. Robinson and A. Hartemink, “Learning non-stationary dynamic Bayesian networks,”

The Journal of Machine Learning, vol. 11, pp. 3647–3680, 2010. [Online]. Available:

http://dl.acm.org/citation.cfm?id=1953047

[19] S. Vucic, J. D. Rothstein, and M. C. Kiernan, “Advances in treating amyotrophic lateral

sclerosis: insights from pathophysiological studies,” Trends in Neurosciences, vol. 37, no. 8,

pp. 433 – 442, 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/

S016622361400085X

[20] H. Nzwalo, D. de Abreu, M. Swash, S. Pinto, and M. de Carvalho, “Delayed diagnosis

in als: The problem continues,” Journal of the Neurological Sciences, vol. 343, no. 12,

pp. 173 – 175, 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/

S0022510X14003736

60

Page 75: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Bibliografia

[21] E. Cellura, R. Spataro, A. C. Taiello, and V. L. Bella, “Factors affecting the diagnostic delay

in amyotrophic lateral sclerosis,” Clinical Neurology and Neurosurgery, vol. 114, no. 6,

pp. 550 – 554, 2012. [Online]. Available: http://www.sciencedirect.com/science/article/pii/

S0303846711003921

[22] P. Gupta, S. Prabhakar, S. Sharma, and A. Anand, “A predictive model for amyotrophic

lateral sclerosis (als) diagnosis,” Journal of the Neurological Sciences, vol. 312, no. 12,

pp. 68 – 72, 2012. [Online]. Available: http://www.sciencedirect.com/science/article/pii/

S0022510X11005181

[23] S. C. Bourke, M. Tomlinson, T. L. Williams, R. E. Bullock, P. J. Shaw, and

G. J. Gibson, “Effects of non-invasive ventilation on survival and quality of life

in patients with amyotrophic lateral sclerosis: a randomised controlled trial,” The

Lancet Neurology, vol. 5, no. 2, pp. 140 – 147, 2006. [Online]. Available: http:

//www.sciencedirect.com/science/article/pii/S1474442205703264

[24] P. M. Amaral, “Prognostic prediction in patients with Amyotrophic Lateral Sclerosis using data

mining techniques,” 2012.

[25] D. a. Morales, Y. Vives-Gilabert, B. Gómez-Ansón, E. Bengoetxea, P. Larrañaga,

C. Bielza, J. Pagonabarraga, J. Kulisevsky, I. Corcuera-Solano, and M. Delfino, “Predicting

dementia development in Parkinson’s disease using Bayesian network classifiers.”

Psychiatry research, vol. 213, no. 2, pp. 92–8, Aug. 2013. [Online]. Available:

http://dx.doi.org/10.1016/j.pscychresns.2012.06.001

[26] Y. Sun, S. Lv, and Y. Tang, “Construction and Application of Bayesian Network in Early

Diagnosis of Alzheimer Disease’s System,” in 2007 IEEE/ICME International Conference

on Complex Medical Engineering. Ieee, May 2007, pp. 924–929. [Online]. Available:

http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4381875

[27] S. Dash, J. G. Quirk, and P. M. Djuric, “Learning dependencies among fetal heart

rate features using Bayesian networks.” Conference proceedings : Annual International

Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering

in Medicine and Biology Society. Conference, vol. 2012, pp. 6204–7, Jan. 2012. [Online].

Available: http://www.ncbi.nlm.nih.gov/pubmed/23367346

[28] J. C. Rajapakse and J. Zhou, “Learning effective brain connectivity with dynamic Bayesian

networks.” NeuroImage, vol. 37, no. 3, pp. 749–60, Sep. 2007. [Online]. Available:

http://www.ncbi.nlm.nih.gov/pubmed/17644415

61

Page 76: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Bibliografia

[29] J. Li, Z. J. Wang, and M. J. McKeown, “Dynamic bayesian networks (dbns) demonstrate

impaired brain connectivity during performance of simultaneous movements in parkinson’s

disease,” in ISBI, 2006, pp. 964–967.

[30] M. Kayaalp, G. F. Cooper, and G. Clermont, “Predicting ICU mortality: a comparison of

stationary and nonstationary temporal models.” in Proceedings / AMIA Annual Symposium.,

no. 1, Jan. 2000, pp. 418–22. [Online]. Available: http://www.pubmedcentral.nih.gov/

articlerender.fcgi?artid=2243937&tool=pmcentrez&rendertype=abstract

[31] P. Dagum and A. Galper, “Forecasting sleep apnea with dynamic network models,” in

Proceedings of the Ninth international conference, 1993, pp. 64–71. [Online]. Available:

http://dl.acm.org/citation.cfm?id=2074481

[32] T. Charitos, L. C. van der Gaag, S. Visscher, K. a.M. Schurink, and P. J. Lucas, “A dynamic

Bayesian network for diagnosing ventilator-associated pneumonia in ICU patients,” Expert

Systems with Applications, vol. 36, no. 2, pp. 1249–1258, Mar. 2009. [Online]. Available:

http://linkinghub.elsevier.com/retrieve/pii/S0957417407005805

[33] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, and I. H. Witten, “The WEKA

data mining software: An update,” SIGKDD Explor. Newsl., vol. 11, no. 1, pp. 10–18, Nov.

2009.

62

Page 77: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

AAppendix A

63

Page 78: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

A. Appendix A

Nó Nós paiGender Evolution; MIPBMI Evolution; PatternMND Evolution; PO2Age at onset Evolution; PO2El Escorial reviewed criteria Evolution; Onset formOnset form Evolution; ALS-FRSbEnvolved segment - 1st symptoms Evolution; Onset formEvolution patternB Evolution, MND1st symptoms - 1st visit Evolution ;ALS-FRS-RALS-FRS EvolutionALS-FRS-R Evolution; ALS-FRSALS-FRSb Evolution; ALS-FRS-RR Evolution; ALS-FRS-RSpO2mean Evolution; PatternSpO2min Evolution; GenderSpO2<90 Evolution; GenderDips/h<4 Evolution; GenderPattern Evolution; GenderVC Evolution; MEPFVC Evolution; VCMIP Evolution; P0.1MEP Evolution; Onset formP0.1 Evolution; VCPO2 Evolution; MIPPCO2 Evolution; RPhrenMeanLat Evolution; PatternPhrenMeanAmpl Evolution; MIPPhrenMeanArea Evolution; PhrenMeanAmplEvolution

Tabela A.1: Estrutura da RB inicial do classificador que obteve melhores resultados na classifica-ção (cdRBDia), para os dados correspondentes à janela temporal de 90 dias.

64

Page 79: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

Nó Nós pai (Ti) Nós pai (Ti+1)Gender Gender; SpO2<90 Evolution; MIP; ALS-FRSBMI BMI; SpO2<90 Evolution; Pattern; ALS-FRSMND MND; SpO2<90 Evolution PO2; ALS-FRSAge at onset Age at onset; SpO2<90 Evolution; PO2; ALS-FRSEl Escorial revi-ewed criteria

El Escorial reviewed criteria;SpO2<90

Evolution; Onset form; ALS-FRS

Onset form Onset form; SpO2<90 Evolution; ALS-FRSb; ALS-FRSEnvolved segment- 1st symptoms

Envolved segment - 1st symp-toms

Evolution; Onset form; ALS-FRS

Evolution patternB Evolution patternB; SpO2<90 Evolution; MND; ALS-FRS1st symptoms - 1stvisit

1st symptoms - 1st visit;SpO2<90

Evolution; ALS-FRS-R; ALS-FRS

ALS-FRS ALS-FRS-R; ALS-FRS EvolutionALS-FRS-R ALS-FRS-R; SpO2<90 Evolution; ALS-FRSALS-FRSb ALS-FRSb; Onset form Evolution; ALS-FRS-R; ALS-

FRSR R; Age at onset Evolution; ALS-FRS-R; ALS-

FRSSpO2mean SpO2mean; ALS-FRS Evolution; Pattern; ALS-FRSSpO2min ALS-FRS; SpO2min Evolution; Gender; ALS-FRSSpO2<90 SpO2<90 Evolution; Gender; ALS-FRSDips/h<4 SpO2<90 Evolution; Gender; ALS-FRSPattern Pattern; PCO2 Evolution; Gender; ALS-FRSVC PhrenMeanAmpl; Gender Evolution; MEP; ALS-FRSFVC FVC; ALS-FRS-R Evolution; VC; ALS-FRSMIP MIP; ALS-FRS-R Evolution; P0.1; ALS-FRSMEP MEP; SpO2min Evolution; Onset form; ALS-FRSP0.1 Gender; Evolution VC; ALS-FRSPO2 Gender; SpO2min Evolution; MIP; ALS-FRSPCO2 PCO2 R; Evolution; R; ALS-FRSPhrenMeanLat Evolution; Pattern; ALS-FRSPhrenMeanAmpl MEP Evolution; MIP; ALS-FRSPhrenMeanArea SpO2<90 Evolution; PhrenMeanAmpl;

ALS-FRSEvolution PCO2; Gender

Tabela A.2: Estrutura da RB condicional do melhor classificador (cdRBDia), aprendida a partirdos dados correspondentes à janela temporal de 90 dias.

65

Page 80: Prognóstico de Doentes com Esclerose Lateral Amiotrófica … · 3.7 Exemplo da construção de uma instância da amostra de transição, através da jun-ção das instâncias de

A. Appendix A

66