joana filipa carvalho mesquita qvida+: estimaÇÃo ... · joana filipa carvalho mesquita qvida+:...

Joana Filipa Carvalho Mesquita

QVIDA+: ESTIMAÇÃO CONTÍNUA DE QUALIDADE

DE VIDA PARA AUXÍLIO

EFICAZ À DECISÃO CLÍNICA

Pré-Dissertação de Mestrado

Mestrado Integrado em Engenharia e Gestão de Sistemas de

Informação

Trabalho efetuado sob a orientação do Prof. Doutor Luís Paulo Reis e

coorientação da Prof. Doutora Brígida Mónica Faria

Fevereiro 2017

i

RESUMO

Este projeto visa tirar partido da evolução científica e tecnológica para aplicá-la à área da saúde.

O projeto baseia-se no desenvolvimento de um sistema de informação que permitirá a avaliação da

qualidade de vida de doentes oncológicos. Para isto serão utilizadas técnicas de data mining em

dados provenientes de instrumentos biométricos que monitorizam continuamente o doente e

instrumentos de medida já existentes. Este sistema irá adaptar-se a cada doente, permitindo uma

previsão personalizada de respostas a questionários relacionados com qualidade de vida de modo

semiautomático. A principal finalidade do sistema a desenvolver será a de manter a equipa médica

atualizada relativamente ao estado e qualidade de vida do paciente, sendo deste modo ajudada na

sua tomada de decisões.

Palavras-chave: Qualidade de Vida, Descoberta de Conhecimento em Bases de Dados, Data Mining,

Instrumentos de Medida, Sistemas de Apoio à Decisão Clínica

iii

ABSTRACT

This project aims to take advantage of the scientific and technological evolution in order to apply

it to the health care area. The project is based on the development of an information system that will

allow the assessment of the quality of life of cancer patients. For this purpose, data mining techniques

will be used in data collected from existing measuring instruments and biometric instruments that

continuously monitor the patient. This system will adapt to each patient, allowing a personalized forecast

of responses to questionnaires related to the quality of life in a semi-automatic way. The main purpose of

the system to be developed will be to keep the medical team up-to-date with the patient's condition and

quality of life, in order to help in their decision-making.

KEYWORDS: Quality of Life, Knowledge Discover Database, Measures Instruments, Clinical Decision

Support Systems;

v

TABELA DE CONTEÚDOS

Resumo................................................................................................................................................i

Abstract.............................................................................................................................................. iii

Tabela de Conteúdos .......................................................................................................................... iv

Índice de Figuras ............................................................................................................................... vii

Índice de Tabelas .............................................................................................................................. vii

1. Capítulo I - Introdução ................................................................................................................. 1

1.1 Motivação ........................................................................................................................... 1

1.2 Objetivos ............................................................................................................................. 2

1.3 Organização do Documento ................................................................................................. 2

2. Capítulo II – Revisão da literatura ................................................................................................ 4

2.1. Qualidade de vida................................................................................................................ 4

2.1.1. Qualidade de vida relacionada com a saúde ................................................................. 5

2.1.2. Instrumentos de medida de QDVRS em Oncologia ........................................................ 5

2.2. Descoberta de Conhecimento em Bases de Dados .............................................................. 6

2.2.1. Business Intelligence ................................................................................................... 8

2.2.2. Data Mining ................................................................................................................. 8

2.2.3. Técnicas de Data Mining .............................................................................................. 9

2.2.4. Data Mining na Medicina ........................................................................................... 11

3. Capítulo III - Abordagem Metodológica ....................................................................................... 12

3.3. Questões Éticas ................................................................................................................ 16

3.4. Análise de Riscos .............................................................................................................. 17

4. Capítulo IV – Ferramentas ......................................................................................................... 18

4.1. Ferramentas de Data Sience ............................................................................................. 18

4.1.1. R ............................................................................................................................... 18

4.1.2. Python ............................................................................................................................ 19

vi

4.2. Dispositivo biométrico ....................................................................................................... 19

5. Capitulo V - Plano de Atividades ................................................................................................ 21

5.1. Descrição das Tarefas ....................................................................................................... 22

Fase 1 – Compreensão e Planeamento do Projeto ..................................................................... 22

Fase 2 – Projeto de Dissertação ................................................................................................ 22

Fase 3 – Dissertação ................................................................................................................ 22

Fase 4 - Escrita do Relatório de Dissertação .............................................................................. 26

6. Capítulo VI – Conclusões .......................................................................................................... 27

Referências ...................................................................................................................................... 28

vii

ÍNDICE DE FIGURAS

Figura 1 – Fases do CRISP-DM (Chapman et al., 2000) .................................................................... 15

Figura 2 - Diagrama de Gantt ............................................................................................................ 21

ÍNDICE DE TABELAS

Tabela 1 - Palavras-chave utilizadas na pesquisa ............................................................................... 13

Tabela 2 - Lista de Riscos ................................................................................................................. 17

1

1. CAPÍTULO I - INTRODUÇÃO

1.1 Motivação

A principal motivação do desenvolvimento desta dissertação é aliar a tecnologias de informação a área

da saúde. À medida que a tecnologia se torna cada vez mais integrada nos estilos de vida dos

consumidores, as inovações estão a alterar o tipo de informação recolhida e o seu método de utilização.

Os avanços tecnológicos também permitem que os sistemas de informação dos cuidados de saúde se

tornem mais holísticos e esféricos em foco, em vez dos relacionamentos lineares de causa e efeito das

gerações anteriores. A quantidade de dados gerada cresce de dia para dia. A necessidade de

compreender conjuntos de dados enriquecidos, grandes e complexos, aumentou em todos os campos.

Com esta grande quantidade de dados, a capacidade de extrair conhecimentos úteis escondidos nestes

é cada vez mais importante. O processo de aplicação de sistemas de informação, incluindo novas

técnicas, para a descoberta de conhecimento a partir de dados é denominado de data mining. Data

mining possui um grande potencial para o setor de saúde, uma vez que permite que os sistemas de

saúde usem sistematicamente dados e análises para identificar ineficiências e melhores práticas que

melhoram os cuidados e reduzem custos. Durante esta dissertação serão usados dados de pacientes

com cancro da cabeça e/ou pescoço, o que pode ser uma experiência angustiante para eles. Estes

pacientes não só têm que lidar com o risco de vida mas também com o impacto da doença no seu dia-

a-dia, como em comer, engolir, respirar e comunicar. Com data mining é possível comparar sintomas,

causas, tratamentos e efeitos negativos e, em seguida, proceder a analisar qual ação será mais eficaz

para um grupo de pacientes. Esta é também uma forma de desenvolver melhores padrões de

atendimento e práticas clínicas. Pessoalmente sempre gostei da área de business inteligence, mas

especificamente de data mining cujos conhecimentos fui adquirindo ao longo do percurso académico.

Esta dissertação está englobada num projeto desenvolvido pela organização Optimizer, universidade do

Porto e pela universidade do Minho. Assim pretende-se conceber um sistema de informação que utilizará

os dados físicos e comportamentais do doente, angariados através de sensores e de dispositivos móveis,

e dados sobre a qualidade de vida, adquiridos através de questionários dedicados ao efeito. Este SI

permitirá a previsão sobre as respostas dos pacientes a questionários que ajudarão na decisão clinica

por parte da equipa médica.

2

1.2 Objetivos

O principal objetivo deste estudo é o desenvolvimento de um Sistema Informação, que em simbiose

com técnicas de data mining permitirá avaliar a qualidade de vida de doentes oncológicos de forma

contínua, para auxiliar o processo de tomada de decisão por parte da equipa médica.

Para este objetivo ser alcançado, esta projeto engloba uma série de objetivos mais específicos:

Efetuar um estudo exaustivo sobre a qualidade de vida e data mining, com o objetivo de

dominar os conceitos e eleger técnicas data mining que melhor se adequam ao tipo de dados

recolhidos;

Definir e implementar métodos de análise e transformação de dados para aplicar as técnicas

de data mining previamente selecionadas;

Realizar um conjunto de testes aos diferentes dados, utilizando as técnicas identificadas, e

analisar detalhadamente os resultados obtidos;

Desenvolver um protótipo do sistema de informação que cumpra todos os requisitos;

Avaliar o protótipo desenvolvido com dados recolhidos a partir de pacientes reais.

1.3 Organização do Documento

A estrutura deste documento segue uma ordem lógica, proporcionando ao seu leitor o

enquadramento com o problema de uma forma sequencial. Permite, desta forma, uma interpretação

gradual dos conceitos inerentes a este, e que proporcionam, a aquisição do conhecimento necessário,

para a interpretação do capítulo seguinte. Esta ordem vai ao encontro da estrutura de grande parte das

dissertações de mestrado efetuadas até à data.

Este documento está estruturado em cinco capítulos que sucintamente se enunciam e descrevem

de seguida.

O capítulo I apresenta uma breve contextualização da temática em análise, com o intuito de dar a

conhecer os conceitos e objetivos associados ao projeto que compõem esta dissertação, bem como as

motivações que levaram a escolha deste tema.

O capítulo II é referente a revisão de literatura que consiste em avaliar e sintetizar os

conhecimentos atuais existentes relevantes para a execução e compreensão do trabalho. Este será

composto por duas vertentes. A primeira é refente à temática Qualidade de vida e Qualidade de Vida

3

Relacionada com a Saúde onde será feita uma abordagem geral as mesmas bem como uma enumeração

sobre os instrumentos de medida já implementados no Sistema de Apoio à Decisão Clínica QoLIS. O

segundo tema a ser considerado é a Descoberta de Conhecimento em Bases de Dados que visa, através

do estado da arte, enquadrar as técnicas de Data Mining, explicitando o processo requerido para proceder

à extração de conhecimento sobre determinados conjuntos de dados, assim como as medidas para

perceber o seu resultado e contributo.

O capítulo III é refente a abordagem metodológica, onde serão descritas todas as técnicas utlizadas

durante a realização do projeto, assim como a estratégia de pesquisa bibliográfica utilizada para a

realização do capítulo anterior.

O capítulo IV engloba as ferramentas que serão utilizadas durante o desenvolvimento do projeto,

mais especificamente o dispositivo biométrico e ambiental que será usado para recolha de dados, a

miscrosoft band 2, e o software que será utilizado para realizar as operações de Data Mining, o R.

O capítulo V contém o plano de trabalhos constituído pelas atividades e calendarização das

mesmas, uma matriz que contém as atividades e os objetivos e ainda os principais riscos do trabalho.

O capítulo VI e último capítulo contem as conclusões obtidas após o desenvolvimento dos capítulos

anteriores, identificando também o trabalho que se realizará na próxima fase deste estudo.

4

2. CAPÍTULO II – REVISÃO DA LITERATURA

2.1. Qualidade de vida

O termo qualidade de vida é bastante geral, este engloba vários fatores, nomeadamente

sentimentos, comportamentos relacionados com o dia-a-dia, incluindo, mas não se limitando, à sua

condição de saúde e às intervenções médicas (Seidl & Zannon, 2004). Este é normalmente

associado com a condição física e o bem-estar psicológico e social (Bowling, 1995). Devido a

ambiguidade deste tema, existem diversas definições conceptualmente diferentes do mesmo. Algumas

focam-se na no bem-estar, outras no contentamento com as diversas áreas da vida, outras na auto

realização material do individuo (Pires, 2009). Até ao final do seculo vinte, o bem-estar da comunidade

era avaliado em termos económicos, o banco mundial fez parte desta ideia e associou o bem-estar com

o rendimento per capita (Silva I. , 2003). Outros autores, que analisaram a qualidade de vida fora do

escopo da medicina, tentaram especificar os componentes que medem a qualidade de vida, chegando

a conclusão que este conceito é muito alargado, pois engloba sobre o individuo de uma forma intrincada

a sua saúde física, as relações sociais, o seu nível de autonomia e independência, as suas representações

e crenças, bem como a sua relação aos diversos elementos essenciais do seu ambiente (Silva & Branco,

2009). “Qualidade de vida é o grau de consciência entre a vida real e as expectativas do indivíduo,

refletindo a satisfação de objetivos e sonhos do próprio indivíduo” (Sampaio, 2007). Pires, 2009 citou a

OMS, 1994 na qual esta definiu o termo como “a perceção do indivíduo da sua posição na vida no

contexto da cultura e sistema de valores nos quais ele vive e em relação aos seus objetivos, expectativas,

valores, padrões e preocupações”. Este conceito tem vindo a ser compreendido por varias em

perspetivas, nomeadamente o bem-estar físico, psicológico e espiritual, além de aspetos sociais,

económicos e políticos.

5

2.1.1. Qualidade de vida relacionada com a saúde

O conceito qualidade de vida relacionada com a saúde (QVRS), é bastante frequente na literatura,

uma vez que é bastante semelhante ao do termo mais global. A utilização deste termo num contexto de

saúde, não é só importante por uma questão humanitária, como também por uma questão de avaliação

da eficácia dos serviços de saúde, isto porque fatores como o bem-estar ou mal-estar psicológico

parecem ter influência no funcionamento do corpo e na evolução da doença, no efeito da terapêutica e

até na própria longevidade (Pinto & Ribeiro, 2006). Através do reconhecimento de que um dos principais

objetivos dos cuidados de saúde é melhorar a qualidade de vida dos doentes, advém daí a importância

do conceito e da avaliação da qualidade de vida no contexto da saúde. Associado a este reconhecimento,

surge um movimento subjacente que visa a transição de contextos orientados por parâmetros tradicionais

de avaliação da doença que têm em conta as avaliações epidemiológicas ou pato fisiológicas para uma

abordagem mais abrangente que tenha em conta a vida nas suas múltiplas dimensões (Pinto & Ribeiro,

2000). O conceito de QVRS é de difícil definição, dadas as múltiplas variáveis que incidem sobre o seu

significado, desde uma conceção individual do sujeito até aos contextos históricos, culturais, sociais,

científicos e filosóficos que o resinificam, evidenciando-se a variedade de contextos da experiência

humana (Pinto & Ribeiro, 2006).

2.1.2. Instrumentos de medida de QDVRS em Oncologia

Para avaliar a Qualidade de Vida (QdV) dos doentes oncológicos da cabeça e pescoço comparam-

se dois dos questionários mais usados de Qualidade de Vida específicos para Oncologia já validados para

Portugal: o questionário QLQC30 e o seu módulo específico para doentes oncológicos da cabeça e

pescoço-QLQ-H&N35, da European Organization for Research and Treatment of Cancer (EORTC). A

primeira geração dos questionários EORTC QLQ foram projetados para ser (Fayers & Bottomley, 2002):

Específico para um tipo de cancro;

Estrutura multidimensional;

Adequado para autoadministração;

Aplicável em uma variedade de cenários culturais;

Adequado para uso com tratamentos adicionais e ou específicos.

6

Questionário EORTC QLQ-C30

O EORTC QLQ-C30 é um questionário desenvolvido para avaliar a qualidade de vida de doentes

oncológicos (Koller, et al., 2007). Este é formado por trinta perguntas, as quais se agrupam em cinco

escalas funcionais – física, emocional, desempenho, cognitiva e social – três escalas de sintomas -fadiga,

dor, náusea e vómito - seis itens para a avaliação de sintomas ou problemas adicionais (dispneia, perda

de apetite, insónia, dificuldades financeiras, obstipação e diarreia) e uma escala global de QDV. Todas

as escalas e itens variam numa pontuação dos 0 aos 100, sendo que à exceção das escalas funcionais

e da escala global de QDV, em todas as outras escalas e itens simples, uma pontuação elevada indica

pior QDV (Heutte, Plisson, Lange, Prevost, & Babin, 2014).

Questionário EORTC QLQ-H&N35

O questionário EORTC QLQ-H&N35 é focado para doentes que possuam cancro da cabeça e/ou

pescoço. Este possui trinta e cinco perguntas, que variam entre sintomas e efeitos colaterais do

tratamento, função social, imagem corporal e sexualidade. Incorpora sete escalas de sintomas (dor,

deglutição, paladar e olfato, fala, alimentação em público, contacto social e sexualidade) e onze itens

simples. Para todas as escalas e itens simples uma pontuação elevada significa pior QDV. Os dados

obtidos correspondem ao estado do doente durante a última semana (Heutte, Plisson, Lange, Prevost,

& Babin, 2014); (Koller, et al., 2007).

2.2. Descoberta de Conhecimento em Bases de Dados

O termo Descoberta de Conhecimento em Bases de Dados (DCBD), surgiu em 1989 para se referir

ao amplo processo de descoberta de conhecimento em dados e, enfatizar a "alto nível" da aplicação de

determinados métodos de data mining (DM) Fayyad et al. (1996) considera DM como uma das fases do

processo de DCBD. Este processo, depende de técnicas de análise de dados, dentro das quais se

encontra o DM, que é um conjunto de técnicas que efetuam a extração do conhecimento (Santos &

Azevedo, 2005). A DCBD pode ser definida como o processo de identificar padrões e/ou modelos, a

partir de dados em bruto, que sejam novos, potencialmente úteis e compreensíveis (Fayyad). As

aplicações de DCBD integram teorias, métodos e algoritmos provenientes das áreas de inteligência

artificial, aprendizagem automática, reconhecimentos de padrões, estatística, base de dados e outras,

tendo como objetivo a extração de conhecimento a partir de grandes bases de dados (Fayyad). Os

algoritmos utilizados para procurar padrões nos dados são denominados de algoritmos de data mining

7

(DM). O processo global de DCBD, que se desenvolve em várias fases, inclui a utilização de algoritmos

de DM e a interpretação de padrões encontrados pelos mesmos, os quais são posteriormente utilizados

no suporte à tomada de decisão (Santos & Ramos, 2006).

“É o valor atribuído à duração da vida, modificado pelos prejuízos, estados funcionais e

oportunidades sociais que são influenciados por doença, tratamento ou políticas de saúde.” (Patrick e

Erickson,1993 cit in Ebrahim,1995 – p. 1384) “uma perspetiva de cuidados de saúde, a qualidade de

vida pode referir-se ao bem-estar social, emocional e físico dos doentes a seguir ao tratamento, resultados

e estado de saúde e perspetivas futuras.”(Bowling, 1995 cit in Pinto e Ribeiro, 2000 – p.12) “A avaliação

da qualidade de vida de pessoas que sofrem de uma doença tem a especificidade de o elemento central

ser a saúde das pessoas, ou melhor, o que se avalia é em que medida os diversos domínios são

influenciados pelas características da doença que afeta a pessoa. A qualidade de vida nesta perspetiva

é frequentemente denominada Qualidade de Vida Relacionada com a Saúde.” (Ribeiro, Meneses e

Meneses, 1998 cit in Correia, 2007 – p.39) A QVRS é um conceito que se centra na avaliação subjetiva

do doente, mas está inequivocamente relacionado com o impacto do estado de saúde na capacidade do

indivíduo viver plenamente. Por sua vez, o conceito de qualidade de vida é mais geral e possui uma

multiplicidade de condições que podem afetar a perceção do indivíduo, dos seus sentimentos e

comportamentos relacionados com o seu dia-a-dia, incluindo, mas não se limitando, à sua condição de

saúde e às intervenções médicas (Correia, 2007). Luce e Elixhauser (1990) definem cinco dimensões

principais de QVRS, são elas a função física que incluí aspetos como a mobilidade, a capacidade de

cuidar de si próprio, a capacidade para realizar as atividades de vida diária, a dor física e sintomas físicos;

a função psicológica que inclui aspetos como a depressão, o comportamento colérico, a ansiedade, a

sensação de abandono e as expectativas acerca do futuro; a função social que inclui a participação em

atividades sociais, a função sexual, o relacionamento familiar e as atividades recreativas; a função

cognitiva que inclui aspetos como a memória, o estado de alerta e a capacidade de decisão/julgamento;

e o bem-estar geral que se refere à saúde em geral, às perceções e satisfação com a vida. 38 Na

sociedade atual, a qualidade de vida é um tema de extrema importância e é utilizada como uma medida

de resultados dos cuidados e intervenções em saúde. Assim, e ao contrário do que se passava acerca

de 60 ou 70 anos atrás, a questão mais importante não reside em saber se o doente sobrevive ou se vai

morrer, já que, os avanços na medicina resolveram, em grande parte, essa situação. Torna-se, então,

fundamental saber se os indivíduos que vivem com determinada doença (essencialmente a doença

crónica) conseguem viver a sua vida diária com a mesma qualidade de vida das pessoas que não sofrem

de nenhuma doença. Assim, no capítulo atual será explorado o impacto do VIH na qualidade de vida dos

8

doentes infetados, ou seja, o impacto na própria pessoa. Será feita ainda referência à medição dessa

mesma qualidade de vida nos doentes infetados pelo VIH, assim como a utilização da qualidade de vida

nos estudos de avaliação económica.

2.2.1. Business Intelligence

O termo Business Intelligence (BI) é abrangente, combina arquiteturas, bases de dados,

ferramentas analíticas, aplicações e metodologias (Turban, Sharda, Delen, & King, 2011). O principal

objetivo do BI é disponibilizar o acesso interativo (por vezes em tempo real) de dados, para permitir a

sua manipulação, dando aos gestores de negócios e analistas a capacidade de executar um estudo

adequado (Turban, Sharda, Delen, & King, 2011). Ao analisar dados históricos e atuais, os decisores

obtêm informações valiosas que lhes permitem tomar melhores e mais informadas decisões. O processo

de BI baseia-se na transformação dos dados em informação, para em seguida dar origem à decisão e

finalizar com a ação (Turban, Sharda, Delen, & King, 2011). Os sistemas de BI combinam dados com

ferramentas analíticas, de forma a disponibilizar informação relevante para a tomada de decisão, o seu

objetivo é portanto melhorar a qualidade e disponibilidade da informação (Cody, Kreulen, Krishna, &

Spangler, 2002) Estes sistemas têm aplicado: a funcionalidade, a escalabilidade e a segurança dos atuais

sistemas gestores de bases de dados para construir Data Warehouses (DW) que são analisados com

técnicas de On-Line Analytical Processing (OLAP) e de DM (Santos & Ramos, Business Intelligence:

Tecnologias da Informática na Gestão de Conhecimento, 2006).

2.2.2. Data Mining

O DM é um processo que usa técnicas estatísticas, matemáticas e de inteligência artificial, para

extrair e identificar informação útil e subsequente conhecimento de grandes bases de dados. Isto é

conseguido através da descoberta de padrões matemáticos, que podem ser regras, afinidades,

correlações, tendências, ou modelos de previsão (Nemati & Barko, 2001). Na prática, as tarefas

associadas ao DM, podem ser divididas em três grupos: previsão, associação e clustering. Com base na

forma como os padrões são extraídos a partir dos dados históricos, os algoritmos dos métodos de

aprendizagem em DM podem ser classificados como supervisionados ou não supervisionados (Turban,

Sharda, Delen, & King, 2011). Nos algoritmos de aprendizagem supervisionados, os dados de

aprendizagem incluem tanto os atributos descritivos (i.e. variáveis independentes ou variáveis de

9

decisão), bem como o atributo de classe (i.e. variável de saída ou variável resultado). Em contraste, com

a aprendizagem não supervisionada, os dados de aprendizagem incluem apenas os atributos descritivos

(Turban, Sharda, Delen, & King, 2011). No grupo da previsão, as tarefas de DM incluem dois grandes

modelos supervisionados: modelos de Classificação e modelos de Regressão. Os modelos de regressão

são utilizados sempre que se pretender prever uma variável com valores contínuos (Santos & Ramos,

Business Intelligence: Tecnologias da Informática na Gestão de Conhecimento, 2006). Por exemplo, um

regressor pode prever, de acordo com os resultados das análises, a probabilidade que um doente tem

de viver. Relativamente aos classificadores, a classificação aprende com as características das variáveis

independentes e de saída, através de um processo de aprendizagem supervisionada, em que ambos os

tipos de variáveis são apresentados ao algoritmo (Turban, Sharda, Delen, & King, 2011).

2.2.3. Técnicas de Data Mining

Tendo em consideração o âmbito deste projeto de dissertação e os objetivos das análises a

realizar, está previsto a utilização das seguintes técnicas. Não excluindo que futuramente possam ser

incluídas outras técnicas.

Árvores de Decisão para Turban, as ADs servem para classificar os dados, num número finito de

classes, com base nos valores de entrada. As ADs são uma simples representação do conhecimento,

muito eficiente na construção de classificadores que preveem classes baseadas nos valores de atributos

de um conjunto de dados (Turban, Sharda, Aronson, & King, 2008). As AD são, essencialmente

compostas por uma hierarquia de declarações ”se e então” e são, portanto, significativamente mais

rápidas, exigindo menor esforço computacional, relativamente às Redes Neuronais Artificiais (RNA)

(Turban, Sharda, Delen, & King, 2011). Estes algoritmos são mais apropriados para dados discretos ou

divididos em intervalos. Portanto, incorporar as variáveis contínuas numa estrutura de AD requer

discretização, isto é, converter variáveis contínuas em categorias de gamas numéricas dados (Turban,

Sharda, Aronson, & King, 2008).

Máquinas de Vetores de Suporte é uma técnica introduzida por Cortes e Vapnik (1995), como uma

nova técnica para resolver problemas de reconhecimento de padrões. Segundo a teoria das MVSs

(Cortes, 1995) as técnicas tradicionais de reconhecimento de padrões são baseados na minimização do

risco empírico. As MVSs minimizam o risco estrutural – isto é, a probabilidade de classificar mal padrões

de dados desconhecidos segundo uma distribuição de probabilidade. O que faz com que as MVSs sejam

10

atrativas, devido à capacidade de condensar a informação contida no conjunto de treino e o uso de

famílias de decisão de relativa baixa dimensão (Pontil & Verri, 1998)

Naive Bayes é um algoritmo de classificação, baseado no teorema de Bayes, que prevê a

probabilidade de um conjunto de dados pertencer a uma determinada classe (Langley & Sage, 1994). O

classificador Naive Bayes supõe independência de atributos dentro de cada classe, o que permite que

esta use a seguinte igualdade:

Nesta os valores de p(xi|wj) representam as probabilidades condicionais armazenados em cada classe.

Esta abordagem simplifica o cálculo das probabilidades de classe para uma dada observação (Langley

& Sage, 1994). Para Langley e Sage (1994), a aprendizagem do classificador, baseia-se em incrementos

simples de contagem cada vez que encontra uma nova instância, juntamente com uma contagem

separada para uma classe, cada vez que encontra uma instância da classe. Estas contagens deixam a

estimativa no classificador p(wj) para cada classe wj, sendo que, para cada valor nominal, o algoritmo

atualiza a contagem para esse par classe-valor (Langley & Sage, 1994). A segunda contagem deixa a

estimativa no classificador p(xi|wj), sendo que, para cada atributo numérico, o método mantém duas

quantidades, a soma e a soma dos quadrados, que permite calcular a média e a variância para uma

curva normal usada para encontrar p(xi|wj) (Langley & Sage, 1994). O classificador Naive Bayes é um

método simples e leve, amplamente testado para a indução probabilística, é especialmente eficiente

quando o volume dos dados de entrada é grande (Langley & Sage, 1994). O Naive Bayes apresenta um

melhor desempenho relativamente a muitos métodos de classificação sofisticados (Friedman &

Goldszmidt, 1996).

O Clustering permite agrupar os dados em conjuntos homogéneos. Estes visam segmentar uma

população heterogénea num determinado número de subgrupos (classes) compostos de observações

que partilhem características similares, ao contrário das observações incluídas em grupos diferentes que

apresentam características distintas. No Clustering não existem classes pré-definidas para classificar os

dados em estudo (Vercellis, 2009),pois estes são agrupados com base na sua homogeneidade. Diversos

algoritmos podem ser utilizados para identificar segmentos nos dados.

As Regras de Associação são conhecidas também como grupos de afinidade, e são normalmente

utilizadas para identificar associações interessantes e recorrentes em grupos de dados (Vercellis, 2009).

Esta técnica é simples e intuitiva, e é frequentemente utilizada para investigar as transações de vendas

11

e análise de mercado (Vercellis, 2009). Nas Regras de Associação os resultados surgem em forma de

regras (A → B) onde A e B podem ser proposições verdadeiras ou falsas. Se A for verdade B também é

verdadeiro, isto é, se A está presente, então B também tem probabilidade de estar presente, onde A

representa um conjunto de atributos e B um único atributo que não se encontra presente em A. As regras

apresentam duas medidas a si associadas: (1) suporte e (2) confiança. A medida de suporte representa

o número de ocorrências de uma regra nos dados (e.g. número de vezes que A está associado a B), ou

seja, são os registos que satisfazem a regra. A medida de confiança representa a probabilidade

condicional da regra, sendo obtida através da divisão entre o número de casos onde A e B aparecem

juntos pelo número de casos onde só aparece o B, ou seja, é o número de registos em que será possível

prever B conhecendo A (Santos & Ramos, 2009).

2.2.4. Data Mining na Medicina

A área da saúde lida com grandes volumes de dados, estes são armazenados devido a sua

importância, uma vez que possuem informação sobre pacientes nomeadamente o seu historial clinico,

este tipo de dados não pode ser tratado manualmente (Gomathi & Narayani, 2015). A recolha, gestão,

análise e interpretação da informação são fundamentais para a medicina clínica e cuidados de saúde,

nomeadamente na tomada de decisão relativa à classificação, tratamento e gestão de doenças (Shortliffe

& Barnett, 2001).

Ao longo dos últimos anos o termo data mining tem sido cada vez mais abordado na literatura

médica, tendo as técnicas de DM despertado um grande interesse por parte dos investigadores na área

da saúde. No entanto a sua aplicação tem sido limitada (Bellazzi & Zupan, 2008).

As primeiras aplicações de tratamentos de dados e de machine learning no cancro foram utilizadas

no apoio à deteção e diagnóstico, e iniciaram-se em finais da década de 80 no diagnóstico de cancro da

mama e do sistema digestivo (Graham & S, 1990). Kononenko em 1993 refere a aplicação de sistemas

de aprendizagem de árvores de decisão e do classificador Naive Bayes em problemas de diagnóstico

(localização de tumores primários, recorrência do cancro da mama, tumores da tiroide e reumatologia)

(Kononenko, 1993). O objetivo de obter prognósticos no cancro é diferente do objetivo da deteção e

diagnóstico. No prognóstico é medicamente útil saber informações dos riscos a que o doente pode estar

sujeito, conhecer a probabilidade de recorrência do cancro e qual a probabilidade de sobrevivência de

um doente ao longo do tempo. Os modelos de prognóstico podem prever doenças e seus tratamentos.

São importantes para ajudar no tratamento da grande quantidade de dados que surgem atualmente de

12

doentes que sofreram de cancro e que ao longo da doença viveram diferentes tratamentos e diferentes

respostas obtendo de diferentes formas e tempos o mesmo resultado (Silva A. , 2007).

3. CAPÍTULO III - ABORDAGEM METODOLÓGICA

Neste capítulo serão abordados conceitos e metodologias imprescindíveis para o entendimento

deste trabalho. Uma das definições mais simples de pesquisa será, a obtenção de respostas por meio

do uso de métodos científicos, para as questões ou problemas propostos. Tendo como ponto de partida

uma dúvida levantada ou um problema a ser resolvido e fazendo uso de um ou mais métodos científicos,

a pesquisa tem o objetivo de buscar uma solução ou resposta para a dúvida levantada ou o problema

em questão.

Começa-se por abordar a estratégia usada na revisão da literatura e de seguida a metodologia de

data mining utilizada, bem como uma das aplicações mais comuns desta, a classificação.

3.1. Pesquisa Bibliográfica

Tendo como base a literatura traçou-se um quadro teórico a fim de sustentar o desenvolvimento

da pesquisa, alinhando-o com os objetivos deste projeto. O conhecimento e a comparação puderam ser

feitos com base nos trabalhos relacionados ao tema da pesquisa. O método aplicado nesta pesquisa foi

o método indutivo, o qual dá privilégio a observação para se alcançar os objetivos. No método indutivo

se todas as premissas são verdadeiras, a conclusão é provavelmente será verdadeira, mas não

necessariamente (Prodanov & Freitas, 2013).

Quanto ao ponto de vista dos procedimentos técnicos foram utilizadas fontes bibliográficas, para

o desenvolvimento da argumentação teórica, ou seja, a elaboração do conteúdo teórico da pesquisa deu-

se a partir de material já publicado, constituído de livros, artigos de periódicos e também de material

disponibilizado na Internet mais especificamente as plataformas Google Académico, RepsitoriUM,

Scopus/Elsevier, Web of Knowledge e ResearchGate.

Sob o ponto de vista da abordagem ao problema foi necessário realizar pesquisas tanto em

português como inglês, nas quais foram utilizadas as palavras-chave que se encontram na tabela

seguinte.

13

Tabela 1 - Palavras-chave utilizadas na pesquisa

Idioma

Palavras-chave Português Inglês

Qualidade de vida

Qualidade de Vida Quality of Life

Qualidade de vida na oncologia Quality of Life in oncology

Qualidade de vida e cancro Cancer and Quality of life

Qualidade de Vida Relacionada

com a Saúde Quality of Life Related to Health

Descoberta de conhecimento

em bases de dados

Data mining na oncologia Data Mining in Oncology

Descoberta de Conhecimento

em Bases de Dados

Knowledge Discovery in

Databases

Mineração de Dados Data Mining

Sistemas de Informação Information systems

Data mining na Medicina Data Mining in Medicine

Informática Médica Medical Informatics

Técnicas de Data Mining Data Mining Techniques

Ferramentas á serem utilizadas

durante o desenvolvimento do

projeto

Ferramentas de Data Mining Data Mining Tools

Data Mining com o R Data Mining withR

Data Mining em Phyton Data Mining in Phyton

Microsoft Band 2 --------------------------------------------------------

Metodologia

Ciência dos Dados Data Science

Metodologia Crisp-Dm Crisp-Dm methodology

Perante o ponto de vista dos objetivos, a pesquisa pode ser classificada como exploratória. Na

exploração procurou-se maior familiaridade com o problema objetivando-o torná-lo explícito.

3.2. Data Mining

14

No desenvolvimento desta dissertação será utilizada uma metodologia baseada no standard para

a implementação de projetos de data mining: o CRISP-DM (Cross-Industry Standard Process for Data

Mining). O CRISP-DM é uma metodologia de DM (data mining) que define uma abordagem a seguir na

implementação de projetos de data mining, ajudando também na resolução de problemas tipo típicos

em projetos de DM (Chapman, et al., 2000). Em 1996, quando o DM era uma área ainda pouco

conhecida, mas que ia ganhando adeptos a cada dia que passava, não existia uma metodologia de

implementação de processos de DM bem definida e documentada. A necessidade de um standard, que

fosse independente da indústria, gratuito, sem proprietário e capaz de auxiliar as industria no

desenvolvimento dos seus projetos de DM seguindo boas práticas, impeliu quatro líderes da área de DM

a desenvolver o CRISP-DM. Estes quatro líderes foram: a Daimler-Benz, a Integral Solutions Ltd, a NCR

e a OHRA. No ano seguinte vir-se-ia a formar um consórcio – CRISP-DM SIG (CRISP-DM Special Interest

Group) – com o objetivo de aperfeiçoar a metodologia. Em 2000, foi apresentada a versão 1.0 do CRISP-

DM, espelhando as melhorias que foram sendo adotadas desde a apresentação da metodologia original.

O CRISP-DM é atualmente a metodologia mais seguida pelos especialistas de DM, inclusive, em votações

realizadas pela KDNuggets, o CRISP-DM apresentava-se como a metodologia mais usada, sempre com

larga vantagem em relação às suas concorrentes.

3.2.1. Vantagens do CRISP-DM

A utilização da metodologia CRISP-DM permite várias vantagens, nomeadamente: torna a

implementação de projetos de DM mais rápida, mais simples, mais barata, e mais fácil de gerir; é

independente da indústria e da ferramenta de mineração de dados; é ainda idêntica à filosofia presente

no ramo KDD. Ao definir uma metodologia a seguir, bem documentada e facilmente aplicável, permite-

se simplificar a implementação de projetos de DM, tornando-os mais rápidos, mais baratos e mais fáceis

de gerir. A CRISP-DM é também independente da indústria e da ferramenta usada para a implementação.

Isto quer isto dizer que pode ser usada independentemente do negócio em causa (saúde, comercio,

retalho, etc.), bem como fazendo uso de qualquer ferramenta de data mining. A metodologia relaciona-

se ainda com o conhecido paradigma KDD, já familiar aos profissionais de data mining, o que facilita

ainda mais a adoção da metodologia.

15

Figura 1 – Fases do CRISP-DM (Chapman et al., 2000)

O processo de CRISP-DM divide-se em várias fases. Na Figura 1 é possível observar a natureza

cíclica do processo, as dependências entre as várias fases, e a possibilidade de a execução de uma fase

encadear novas questões, mais focadas e específicas, que originam um regresso à fase anterior. As

várias fases da CRISP-DM são apresentadas com mais detalhe na secção seguinte (Chapman, et al.,

2000).

3.2.2. Fases do CRISP-DM

A CRISP-DM é uma metodologia de data mining, que permite a todos os profissionais de data

mining, do mais inexperiente até ao utilizador mais especialista, seguir um mapa, ou desenho técnico,

que lhe permite conduzir todo o projeto de data mining, de forma simples, eficiente e com sucesso. O

CRISP-DM divide o processo em seis fases distintas:

1. Compreensão do negócio - Nesta fase, pretende-se compreender o negócio, com foco nos

objetivos do projeto e nos requisitos do ponto de vista do negócio, convertendo depois os

objetivos do negócio em objetivos de DM. Depois, deve ser traçado um plano que valide a

satisfação dos objetivos (Chapman, et al., 2000);

2. Compreensão dos Dados - Nesta fase, dá-se início à recolha e consequente exploração dos

dados, com vista à sua compreensão, análise e identificação de problemas de qualidade dos

mesmos. Segue-se a identificação de relações entre os dados ou, a deteção de subconjuntos

16

interessantes destes, a fim de serem analisados posteriormente de forma a permitir identificar

conhecimento oculto (Chapman, et al., 2000);

3. Preparação dos Dados - Esta fase envolve todas as atividades necessárias para a construção do

conjunto final de dados. Estes dados serão usados pelas ferramentas de modelação para

posteriormente serem analisados pelos algoritmos de DM. As tarefas de preparação dos dados

incluem a seleção de tabelas, atributos e registos, bem como a transformação e limpeza dos

dados, com vista à sua posterior análise pelas ferramentas de modelação (Chapman, et al.,

2000).

4. Modelação - Nesta fase, são selecionadas várias técnicas de modelação e os seus parâmetros

são ajustados de forma a otimizar os resultados. Normalmente, existem várias técnicas para o

mesmo tipo de problema de DM, sendo que algumas têm requisitos específicos sobre a forma

como os dados são apresentados, por isso, pode ser necessário voltar à fase de preparação de

dados (Chapman, et al., 2000).

5. Avaliação - Esta fase tem como finalidade avaliar a utilidade dos modelos. Antes de proceder à

implementação final dos modelos, é importante avaliá-los cuidadosamente, rever os passos

executados na sua construção, de forma a ter a certeza que se atingiram os objetivos do negócio,

assim como, avaliar se alguma questão importante para o negócio não tenha sido considerada

(Chapman, et al., 2000).

6. Implementação - A criação dos modelos não marca o fim do projeto. Mesmo que o objetivo dos

modelos seja aumentar o conhecimento sobre os dados, a informação obtida tem que ser

organizada e apresentada para que o utilizador a possa utilizar. No final do projeto, será realizado

um relatório final. Dependendo do plano de implementação, o relatório pode ser apenas um

resumo do projeto ou pode ser uma apresentação final e abrangente do resultado de todo o

processo de DM (Chapman, et al., 2000).

3.3. Questões Éticas

As principais preocupações éticas no decorrer deste projeto relacionam-se com a

confidencialidade e proteção dos dados obtidos, não se afigurando qualquer distribuição ou utilização

dos mesmos, que não os previsto originalmente junto da organização Optimizer. Frisando que o projeto

em questão não desenvolverá qualquer tipo de atividade que ponha em risco a componente física dos

pacientes.

17

3.4. Análise de Riscos

Na seguinte tabela estão representados os riscos que são considerados de ocorrerem e

consequentemente de afetarem o desenvolvimento do projeto. Estes são apresentados pelo ID e

designação, bem como uma breve descrição do mesmo. A tabela será organizada pelo grau de seriedade,

que advém da multiplicação entre os valores da probabilidade e os valores do impacto, ambos valorizados

na escala de 1 a 5.

Tabela 2 - Lista de Riscos

ID Risco Descrição Probabilidade (P) [1-5]

Impacto (I) [1-5]

Seriedade [P*I]

Medidas atenuantes

1 Tempo de desenvolvimento longo

A execução do projeto requer muitas horas de trabalho.

3 3 9 O planeamento deve ser elaborado cuidadosamente, contemplando todas as condicionantes a nível de tempo. Melhor gestão da carga horaria.

2 Dificuldades de manuseamento das ferramentas

Devido a inexperiência no manuseamento das mesmas.

4 5 20 Aquando da calendarização das tarefas, atender a que será necessário atribuir a tempo às mesmas para o estudo das tecnologias e dos conhecimentos necessários para o desenvolvimento.

3 Atividade extracurriculares

Existem diversas atividades ou trabalhos extracurriculares que poderão tirar o foco e tempo para o desenvolvimento do projeto.

3 2 6 Fazer uma boa gestão dos recursos disponíveis, ou seja, calendarizar de forma eficiente todos os momentos de trabalho extra-aulas.

4 Dificuldade de comunicação entre as partes interessadas no projeto

Pode acontecer devido a incompatibilidade de horário livre.

1 3 3 Incentivar o melhoramento e a disponibilidade dos canais de comunicação.

5 Atraso nas Entregas

Por diversos fatores podem ocorrer atrasos nas entregas.

1 4 4 Definir datas de entregas que sejam possíveis de cumprir.

6 Especificação desadequada dos modelos

Devido a uma má compreensão dos requisitos

2 5 10 A fase de Avaliação do CRISP-DM serve de ação atenuante desse risco.

18

4. CAPÍTULO IV – FERRAMENTAS

4.1. Ferramentas de Data Sience

Data science é um campo emergente que intersecta data mining, machine learning, predictive

analytics, statistics, e business intelligence (Dhar, 2013). Para a realização deste projeto é essencial

selecionar a ferramenta mais apropriada ou conjunto de ferramentas para usar nas tarefas de data

science do projeto, assim neste capítulo serão apresentadas e analisadas duas destas.

A análise preditiva, é o processo de empregar métodos empíricos para gerar previsões de dados

(Shmueli & Koppius, 2011). A análise preditiva frequentemente envolve métodos estatísticos, como

análise de regressão, para fazer previsões com base em dados. Esta tem uma ampla gama de aplicações

de marketing, finanças e aplicações clínicas. As aplicações clínicas incluem suporte à decisão clínica,

determinando quais pacientes estão em risco para readmissão hospitalar ou modelagem de interação

medicamentosa (Raghupathi & Raghupathi, 2014).

O termo machine leaning refere-se à deteção automatizada de padrões de dados. Nas últimas

duas décadas, tornou-se uma ferramenta comum uma vez que quase qualquer tarefa que requer

extração de informações de grandes conjuntos de dados (Smola & Vishwanathan, 2008).

Seguidamente serão apresentadas duas ferramentas open source. Estas foram após um estudo

realizado pela equipa do projeto Qvida+ selecionadas como as mais apropriadas para o desenvolvimento

do projeto. O software escolhido foi o R, no entanto o Phyton não foi totalmente excluído uma vez que

poderá ser utilizado posteriormente em combinação com o R (Urbano, Nogueira, Rocha, & Cardoso,

2016). O software de código aberto é um software onde o desenvolvimento e o código fonte são

disponibilizados publicamente e projetados para negar a qualquer pessoa o direito de explorar o software

(Laurent, 2004). Open source refere-se geralmente ao código-fonte da aplicação que está livre e

abertamente disponível para modificações, permitindo a qualquer pessoa desenvolver extensões ou

personalizações.

4.1.1. R

R é uma ferramenta open source e a linguagem de programação mais escolhida para análises

estatísticas. Esta tem estado em desenvolvimento nos últimos anos e é o sucessor da ferramenta S, uma

linguagem estatística originalmente desenvolvida pela Bell Labs em 1970. O código-fonte de R é escrito

19

em C ++, Fortran, e no próprio R. (Simon, 2003). É uma linguagem interpretada e é principalmente

otimizada para cálculos baseados em matrizes. O idioma principal é estendido por uma miríade de

pacotes para todos os tipos de tarefas computacionais (Zhao, 2013).

O R é tradicionalmente utilizado através da linha de comandos. No entanto, existem muitas feely

disponíveis ferramentas de código aberto que integram em R. Um tal exemplo é R Studio que fornece

uma interface gráfica de usuário para R. R pode ser empregado para uma variedade de estatísticas e

tarefas de análise, incluindo mas não limitado a clustering, regressão, Análise de séries temporais,

mineração de texto e modelagem estatística. R é considerado uma linguagem interpretada mais do que

um ambiente. O principal problema de R é sua linguagem, que, embora altamente extensível, também

é difícil de aprender o suficiente para se tornar produtiva em DM.

4.1.2. Python

Python foi criado por Guido Van Rossem em 1991, a sua filosofia enfatiza a produtividade,

legibilidade e simplicidade. Esta linguagem de programação é maioritariamente utilizada para análise de

dados ou aplicação de técnicas estatísticas (Sheppard, 2014).

Tal como o R, Python também possui pacotes. PyPi é o índice de Pacotes Python e consiste em

bibliotecas às quais os utilizadores contribuem. Assim este também possui uma grande comunidade,

mas é um pouco mais dispersa, uma vez que é uma linguagem de uso geral (Nielsen, 2015).

4.2. Dispositivo biométrico

Já como falado anteriormente, os dados serão recolhidos através de um dispositivo biométrico

(dispositivos que medem aspetos físicos e comportamentais do doente e outros que medem informação

ambiental), que após um estudo realizado pela equipa Qvida+, se constatou como sendo a Microsoft

band 2.Esta é a uma pulseira inteligente de segunda geração com recursos smartwatch desenvolvidos

pela Microsoft. Foi anunciada em 6 de outubro de 2015, sucedeu a primeira band da Microsoft e foi

inicialmente disponibilizada nos Estados Unidos, Reino Unido e Canadá. Esta possui os seguintes

sensores (Microsoft, 2017):

Monitor de frequência cardíaca ótica;

Acelerómetro de três eixos;

Gramómetro;

20

GPS;

Microfone Sensor de luz ambiente;

Sensores galvânicos de resposta cutânea;

Sensor UV Sensor de temperatura da pele;

Sensor capacitivo Barômetro.

Esta possui ainda sensores para monitorizar os padrões de sono, ou seja, apresenta informação

sobre a qualidade do sono baseado no ritmo cardíaco e na sua duração (Microsoft, 2017).

21

5. CAPITULO V - PLANO DE ATIVIDADES

Este capítulo inclui o plano de atividades da Dissertação, para melhor compreender o que se irá

passar nos meses que se seguem, no âmbito do projeto de Dissertação, e quais as atividades que já

foram realizadas para a entrega da Proposta de Dissertação. O planeamento da Dissertação tem como

base as fases do CRISP-DM, enquanto a Proposta de Dissertação se centra na revisão de literatura.

Na figura é possível observar de forma gráfica, a calendarização das tarefas que vão ser

desenvolvidas, no decorrer deste projeto.

Figura 2 - Diagrama de Gantt

22

5.1. Descrição das Tarefas

Seguidamente, listam-se e descrevem-se sumariamente as atividades a desenvolver no contexto

deste projeto.

Fase 1 – Compreensão e Planeamento do Projeto

Esta engloba as duas primeiras atividades que se encontram no diagrama, estas já ocorreram e

englobaram uma primeira abordagem ao projeto.

Fase 2 – Projeto de Dissertação

Nesta fase, primeiramente foi estudado o problema e o seu grau de complexidade e os objetivos

a cumprir. Ao analisar os conceitos relacionados com o projeto foi possível obter uma contextualização

do problema onde foi adquirida uma primeira visão sobre quais os conceitos que vão ser alvo de estudo

e quais os procedimentos, que de grosso modo vão permitir alcançar a solução do mesmo.

Posteriormente foi realizada a revisão da literatura divida em dois capítulos, abordando as

temáticas de Qualidade de Vida e Descoberta de Conhecimento em Bases de Dados.

Fase 3 – Dissertação

Compreensão do negócio

Esta é possivelmente a fase mais importante de todo o processo, já que uma má implementação

desta fase implicará maus resultados em todas as outras fases, podendo por em causa o sucesso de

todo o projeto. Esta fase divide-se em várias subfases. Iniciamos o trabalho com a análise do problema

do ponto de vista do negócio ou funcional e a compreensão dos objetivos do ponto de vista do cliente,

pois só após uma compreensão profunda do tema em questão e só após se compreender o que o cliente

realmente pretende, é que se poder avançar para a próxima fase do projeto. Nesta fase é também

definido os objetivos do ponto de vista lógicos. Depois de conhecido o negócio, são avaliadas as condições

para a realização do projeto. Aqui é, portanto, analisada a viabilidade do que se pretende fazer. De

seguida esta informação é transformada num problema de data mining, no qual é definido qual será o

objetivo do ponto de vista técnico. Após a compreensão do problema do ponto de vista do negócio, de

analisada a viabilidade e de definidos os objetivos a alcançar, é elaborado um plano de projeto.

23

No plano de projeto deve-se especificar como se pretende obter os objetivos técnicos definidos

anteriormente, este plano inclui o timeline do projeto, uma análise dos potenciais riscos, e um

levantamento das ferramentas e técnicas a usar para atingir os objetivos.

Compreensão dos dados

A primeira etapa desta fase é a recolha de dados iniciais, que consiste em carregar, e por vezes

integrar de forma uniforme, os dados provenientes de diferentes fontes. Após esta recolha dos dados

iniciais, é feita uma descrição dos dados, esta fase consiste numa análise superficial dos dados, de modo

a recolher informação sobre os mesmos. É recolhida informação sobre os formatos, a quantidade dos

dados, o número de campos e registos em cada tabela, entre outro tipo de informação. O mais

importante desta fase é determinar se os dados obtidos satisfazem os requisitos para a modelação que

se segue, e também, durante o processo, ficar a conhecer as características dos dados que se irá usar.

Após a descrição dos dados, onde é feito um levantamento sobre as características dos dados, é realizada

a fase de exploração dos dados, em que são explorados os dados de forma mais profunda, realizando-

se pesquisas aos dados, visualizando-os e gerando relatórios, de maneira a compreender as suas

características não superficiais. Nesta fase deve-se concentrar em analisar os dados de forma orientada

à temática do data mining, tentando descobrir, de forma preliminar, padrões ou relações entre os dados.

A última etapa da análise dos dados consiste em estudar a qualidade dos dados. Nesta etapa são

analisadas questões como a existência de valores a nulo e a branco (missing values e blank fields),

muitas vezes resultantes de recolha de dados ao longo de um longo período temporal. É também

analisado o universo de valores possíveis para cada atributo, ou seja, se os valores que um atributo toma

fazem sentido (por exemplo uma variável que indique a idade contendo valores negativos não faz sentido).

É ainda estudada nesta fase a existência de atributos com o mesmo significado, a existência de outliers,

e também a existência de valores que contradigam o senso comum.

Tratamento dos dados

Nesta fase, o analista usa o conhecimento adquirido nas duas fases anteriores para preparar os

dados, de modo a estes poderem ser sujeitos à ferramenta de modelação. Esta fase compreende várias

tarefas sobre os dados, entre elas a seleção de dados, a sua limpeza, a sua transformação, a sua

integração e a sua formatação. A seleção de dados consiste, como a própria palavra indica, em selecionar

os dados que serão utilizados de facto no projeto e aqueles que serão descartados. Esta seleção é feita

24

tendo em conta os objetivos da modelação e as restrições técnicas, isto é, deveremos descartar os

atributos que nada ou pouco estejam relacionados com o objetivo do projeto, bem como as variáveis

que, apesar de poderem ser úteis, a sua volumetria torna o seu uso proibitivo. Esta seleção de atributos

deve ser bem documentada e justificada. Por seu lado, a limpeza dos dados consiste em tratar casos de

valores em falta e valores em branco, bem como casos de outliers. Esta fase é feita tendo em conta a

fase final de análise dos dados na qual ocorre a verificação da qualidade dos dados. Após a limpeza dos

dados ter sido executada, é feita a construção de dados, nesta fase são construídos registos

completamente novos ou são gerados outros atributos derivados. A fase de integração dos dados consiste

em integrar num só local, os dados provenientes de fontes diferentes, mas que se referem à mesma

entidade. Por vezes é também necessário realizar a fase de formatação de dados, que ocorre quando,

por alguma razão, é necessário formatar os dados existentes, tais como alterar o tamanho, ou remover

algum tipo de carácter, de forma a tornar os dados viáveis para uso.

Modelação

A fase de modelação apenas se pode iniciar após a fase de tratamento de dados. No entanto

pode-se voltar para a fase anterior de modo a realizar tarefas de tratamento de dados, com o intuito de

melhorar os modelos gerados. Aliás, deve-se salientar que este é o comportamento típico na maioria dos

projetos de data mining. Nesta fase são selecionados várias técnicas de data mining capazes de lidar

com o problema em questão. Estas técnicas são depois aplicadas sendo os seus parâmetros afinados

de forma a tentar encontrar valores ótimos para o problema. Esta fase é composta por quatro subfases:

a seleção das técnicas de modelação, a geração do design de teste, a criação dos modelos, e a avaliação

dos modelos. A seleção das técnicas de modelação consiste em selecionar entre as várias técnicas de

data mining existentes, as que permitem resolver o problema em questão. A geração do design de teste

consiste na definição do método usado para testar os modelos após a sua implementação. Após a

construção dos modelos, é necessário avaliar o seu desempenho e a sua qualidade, o que nem sempre

é trivial. Por exemplo, uma das métricas utilizadas para fazer a avaliação de modelos de classificação, é

o rácio de erros nas classificações. Neste caso, o que normalmente se faz, é definir um conjunto de

dados que serão usados para a modelação e outro conjunto de dados para o teste, de forma a determinar

a capacidade que um modelo tem de prever o passado, antes de o usar para prever o futuro. Assim

sendo, é importante que se defina o método de teste a utilizar nos modelos, antes da sua implementação.

De seguida é feito a criação dos modelos, através da execução das técnicas selecionadas na ferramenta

25

de data mining selecionada. Após a criação dos modelos é chegada a hora de os testar. O analista avalia

os modelos, tendo em atenção o seu conhecimento em relação ao negócio, os objetivos definidos para

o projeto, as condições de sucesso definidas na primeira fase e o designe de teste previamente definido.

No entanto, esta tarefa deve ser feita com o auxílio de especialistas no negócio, de forma a ajudarem a

interpretar os resultados obtidos. Aliás, é aconselhada a introdução destes especialistas na fase de

criação dos modelos, de forma a puderem ser identificados eventuais problemas de dados que não sejam

óbvios e que, de outra forma, passariam provavelmente despercebidos. Nesta fase também é feita uma

classificação comparativa dos vários modelos gerados, usando-se normalmente várias instâncias de uma

técnica ou de modelos usando técnicas diferentes. Este conjunto de modelos gerados é então

classificado, sendo gerado um ranking tendo em conta os critérios de avaliação definidos.

Avaliação

Nesta fase é feita uma análise mais cuidada do modelo escolhido e implementado, sendo

avaliado se ele cumpre todos os objetivos de negócio previamente definidos e se nenhum pormenor de

negócio foi descorado. No fim desta fase, o analista deverá decidir como usará os resultados obtidos. A

primeira tarefa desta fase é a avaliação dos resultados. É neste momento que os resultados são avaliados

em relação aos objetivos de negócio e se verifica se existe alguma consideração em termos de negócio

que torna o modelo não adequado. Esta tarefa não deve ser confundida com a fase de comparação e

avaliação que é realizada na fase de modelação, pois nessa fase os modelos são avaliados e comparados

entre si, tendo em conta métricas bem definidas, como a precisão dos modelos. Uma opção a considerar,

caso o orçamento e a limitação de tempo o permitam, é o teste do modelo em ambiente real. No final o

analista deverá documentar os resultados atingidos em termos de negócio, bem como uma justificação

sobre o cumprimento ou não dos objetivos definidos. A seguir a esta etapa é o momento de fazer uma

reavaliação, na qual é estudado se algum pormenor técnico ou tarefa realizada durante o processo foi

descorado.

Implementação

Depois da avaliação e da reavaliação do modelo, é chegada a hora de se definir as próximas

tarefas. É nesta altura que se decide se se deve terminar o projeto e avançar para a implementação da

solução ou efetuar novas iterações no modelo. O modelo final implementado não representa o final do

projeto, os resultados obtidos devem ser organizados e apresentados ao cliente, de forma a serem

compreendidos e corretamente utilizados. Esta fase tanto pode ser um processo muito simples, como

26

gerar um relatório para o cliente, como complexo, como implementar um processo de data mining capaz

de ser repetido por toda a empresa. Muitas vezes é o cliente a realizar esta tarefa. No entanto o analista

tem o dever de o instruir de quais tarefas a realizar, de modo a utilizar de forma correta os modelos. A

primeira tarefa a executar na fase de instalação, é a planificação da instalação. Nesta fase é planeado

todo o processo de instalação. Depois disso, é feito um planeamento da monitorização e manutenção

dos modelos criados. Esta fase é especialmente importante, caso os resultados sejam planeados para

usar no dia-a-dia da empresa. Após estas duas tarefas de planeamento, é realizado o relatório final.

Dependendo do que foi definido no plano de instalação, este relatório poderá apenas incluir um resumo

do projeto e algumas notas que não tenham sido documentadas durante o processo, ou então um

relatório final detalhado, com uma apresentação exaustiva dos resultados obtidos. A última tarefa

consiste em fazer uma revisão do projeto, onde é avaliada os pontos positivos e negativos do projeto,

bem como os pontos de melhoria a ter em atenção em projetos a realizar no futuro.

Fase 4 - Escrita do Relatório de Dissertação

O relatório irá ser desenvolvido durante todas as fases do projeto, e contará com a contribuição de

todos os artigos científicos desenvolvidos durante o mesmo.

27

6. CAPÍTULO VI – CONCLUSÕES

Após a realização deste projeto de dissertação podemos concluir a importância de aliar a área de

sistemas de informação com a saúde. O que reforça a necessidade de desenvolver um sistema de

informação integrado que monitorize continuamente cada paciente e recolha informação sobre a sua

qualidade de vida e estado de saúde. Relativamente a qualidade de vida é possível concluir que este é

um conceito multidimensionalmente amplo que geralmente inclui avaliações subjetivas de aspetos

positivos e negativos da vida. A parte mais árdua é medi-la, existem vários métodos e escalas mas tendo

em conta o âmbito do projeto foram selecionadas como ferramentas de medida os questionários QLQ-

C30 e o QLQ-H&N35. A temática de bussiness inteligence, descobrimento de conhecimento em base de

dados e data mining estão interligadas, sendo cada uma, uma parte mais especifica da anterior. Foram

analisadas as técnicas de data mining que tendo em conta os objetivos do projeto melhor se adequam

ao seu desenvolvimento e posteriormente selecionada a metodologia CRISP-DM para o desenvolvimento

de todo o processo de DM devido a sua familiarização.

Após a realização do estado da arte é possível verificar que embora existam muitos estudos sobre

o conceito de QDVRS e muitas utilizações de técnicas de Data Mining na saúde, a aplicação prática do

uso de Data Mining e Sistemas de informação na área do aumento da qualidade de vida são ainda muito

escassos.

28

REFERÊNCIAS

Bellazzi, R., & Zupan, B. (2008). Predictive data mining in clinical medicine: Current issues. International

journal of medical informatics, 81-97.

Bowling, A. (1995). Health-Related Quality of Life: A Discussion of the Concept, its use and Measurement.

Open University Press, 1-19.

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., & Shearer, C. (2000). Crisp-dm 1.0. The

CRISP-DM consortium.

Cody, W., Kreulen, J., Krishna, V., & Spangler, W. (2002). The integration of business intelligence and

knowledge management. IBM Systems Journal , 697–713.

Cortes, C. V. (1995). Support vector networks. Machine Learning, 273–297.

Dhar, V. (2013). Data Science and Prediction . Communications of the ACM VOL.56 NO.12, 64-73.

Fayers, P., & Bottomley, A. (2002). Quality of life research within the EORTC - the EORTC QLQ-C30.

European Journal of Cancer , S125–S133.

Gomathi, S., & Narayani, V. (2015). APPLICATIONS OF BIG DATA ANALYTICS AND DATA MINING IN

HEALTH CARE SECTOR. International Journal of Science, Technology & Management, 2394-

1537.

Graham, A., & S, P. (1990). A Diagnostic Expert System for Colonic Lesions. American Journal of Clinical

Pathology, S15-S18.

Heutte, N., Plisson, L., Lange, M., Prevost, V., & Babin, E. (2014). Quality of Life tools in head and neck.

European Annals of Otorhinolaryngology, Head and Neck diseases, 131, 33-47.

Koller, M., Aaronson, N., Blazeby, J., Bottomley, A., Dewolf, L., Fayers, P., . . . West, K. (2007).

Translation procedures for standardised quality of life questionnaires: The European Organisation

for Research and Treatment of Cancer (EORTC) approach. European Journal Of Cancer, 43,

1810-1820.

Kononenko, L. (1993). Inductive and bayesian learning in medical diagnosis. Applied Artificial Intelligence,

317-337.

Langley, P., & Sage, S. (1994). Induction of selective bayesian classifiers. DTIC Document.: Technical

report.

Laurent, A. (2004). Understanding Open Source and Free Software Licensing. Sebastopol: O’Reilly Media.

Microsoft. (2 de 03 de 2017). Microsoft Band 2. Obtido de Microsoft:

https://www.microsoft.com/microsoft-band/en-us

29

Nemati, R., & Barko, D. (2001). Issues in organizational data mining: A survey of current practices.

Journal of Data Warehousing, 25–36.

Nielsen, F. (2015). Data Mining with Python (Working draft).

Pinto, C., & Ribeiro, J. (2000). A qualidade de vida de jovens/adultos submetidos a transplante renal na

infância. Revista Portuguesa de Saúde Pública VOL.18.

Pinto, C., & Ribeiro, J. (2006). A qualidade de vida dos sobreviventes de cancro. Revista Portuguesa de

Saúde Pública VOL.24.

Pires, M. (2009). Factores de risco da doença coronária e qualidade de vida. Estudo exploratório no

concelho de Odivelas. Dissertação de Mestrado em Comunicação em Saúde, Universidade

Aberta.

Pontil, M., & Verri, A. (1998). Properties of support vector machines. Neural Computation, 955–974.

Prodanov, C., & Freitas, E. (2013). Metodologia do Trabalho Científico: Métodos e Técnicas da Pesquisa

e do Trabalho Acadêmico. Feevale.

Raghupathi, W., & Raghupathi, V. (2014). Big data analytics in healthcare: promise and. Health

Information Science and Systems, 2-3.

Sampaio, A. (2007). Benefícios da caminhada na qualidade de vida dos adultos. Dissertação: Faculdade

de Desporto da Universidade do Porto.

Santos, M., & Ramos, I. (2006). Business Intelligence: Tecnologias da Informática na Gestão de

Conhecimento. Lisboa: FCA - Editora de Informática.

Santos, M., & Ramos, I. (2009). Business intelligence : tecnologias da informação na gestão de

conhecimento 2ª ed. Lisboa: FCA - Editora de Informática.

Seidl, E., & Zannon, C. (2004). Qualidade de vida e saúde: aspectos conceituais e metodológicos. .

Caderno de Saúde Pública, 580-588.

Sheppard, K. (2014). Introduction to Python for Econometrics, Statistics and Data Analysis. University of

Oxford.

Shmueli, G., & Koppius, O. (2011). PREDICTIVE ANALYTICS IN INFORMATION SYSTEMS RESEARCH.

MIS Quarterly Vol. 35 No. 3, (pp. 553-572).

Shortliffe, E. H., & Barnett, G. O. (2001). Medical data: Their acquisition, storage and use. Medical

informatics computer applications in health care and biomedicine, 41-75.

Silva, A. (2007). MODELOS DE INTELIGÊNCIA ARTIFICIAL NA ANÁLISE DA MONITORIZAÇÃO DE

EVENTOS CLÍNICOS ADVERSOS, DISFUNÇÃO/FALÊNCIA DE ÓRGÃOS E PROGNÓSTICO DO

DOENTE CRÍTICO. Porto: Universidade do Porto .

30

Silva, I. (2003). Qualidade de vida e variáveis psicológicas associadas a sequelas de diabetes e sua

evolução ao longo do tempo. Dissertação de Doutoramento, Faculdade de Psicologia e de

Ciências da Educação da Universidade do Porto.

Silva, I., & Branco, J. (2009). ncapacidade nas Doenças Reumáticas e as suas repercussões económicas

e laborais. Conferencia, saúde e Produtividade.

Simon, J. (2003). R For the Political Methodologist. The Political Methodologist», 20–22.

Smola, A., & Vishwanathan, S. (2008). INTRODUCTION TO MACHINE LEARNING. Reino Unido: Press

Syndicate of the University of Cambridge.

Turban, E., Sharda, R., Aronson, J., & King, D. (2008). Turban, E., Sharda, R., Aronson, J., and King, D.

1nd edition: Pearson Prentice Hall.

Turban, E., Sharda, R., Delen, D., & King, D. (2011). Business Intelligence: a Managerial Approach.

Pearson Prentice Hall. 2nd edition: Pearson Prentice Hall.

Urbano, J., Nogueira, P., Rocha, A., & Cardoso, H. (2016). Analysis of Data Science Tools for Sensor-

Based Assessment of Quality of Life in Health Care. Porto: Artificial Intelligence and Computer

Science Lab (LIACC).

Vercellis, C. (2009). Business Intelligence: Data Mining and Optimization for Decision Making. Italy: Wiley.

Zhao, y. (2013). R and Data Mining: Examples and Case Studies. Elsevier.

joana filipa carvalho mesquita qvida+: estimaÇÃo ... · joana filipa carvalho mesquita qvida+:...

Documents