joana filipa carvalho mesquita qvida+: estimaÇÃo ... · joana filipa carvalho mesquita qvida+:...
TRANSCRIPT
Joana Filipa Carvalho Mesquita
QVIDA+: ESTIMAÇÃO CONTÍNUA DE QUALIDADE
DE VIDA PARA AUXÍLIO
EFICAZ À DECISÃO CLÍNICA
Pré-Dissertação de Mestrado
Mestrado Integrado em Engenharia e Gestão de Sistemas de
Informação
Trabalho efetuado sob a orientação do Prof. Doutor Luís Paulo Reis e
coorientação da Prof. Doutora Brígida Mónica Faria
Fevereiro 2017
i
RESUMO
Este projeto visa tirar partido da evolução científica e tecnológica para aplicá-la à área da saúde.
O projeto baseia-se no desenvolvimento de um sistema de informação que permitirá a avaliação da
qualidade de vida de doentes oncológicos. Para isto serão utilizadas técnicas de data mining em
dados provenientes de instrumentos biométricos que monitorizam continuamente o doente e
instrumentos de medida já existentes. Este sistema irá adaptar-se a cada doente, permitindo uma
previsão personalizada de respostas a questionários relacionados com qualidade de vida de modo
semiautomático. A principal finalidade do sistema a desenvolver será a de manter a equipa médica
atualizada relativamente ao estado e qualidade de vida do paciente, sendo deste modo ajudada na
sua tomada de decisões.
Palavras-chave: Qualidade de Vida, Descoberta de Conhecimento em Bases de Dados, Data Mining,
Instrumentos de Medida, Sistemas de Apoio à Decisão Clínica
ii
iii
ABSTRACT
This project aims to take advantage of the scientific and technological evolution in order to apply
it to the health care area. The project is based on the development of an information system that will
allow the assessment of the quality of life of cancer patients. For this purpose, data mining techniques
will be used in data collected from existing measuring instruments and biometric instruments that
continuously monitor the patient. This system will adapt to each patient, allowing a personalized forecast
of responses to questionnaires related to the quality of life in a semi-automatic way. The main purpose of
the system to be developed will be to keep the medical team up-to-date with the patient's condition and
quality of life, in order to help in their decision-making.
KEYWORDS: Quality of Life, Knowledge Discover Database, Measures Instruments, Clinical Decision
Support Systems;
v
TABELA DE CONTEÚDOS
Resumo................................................................................................................................................i
Abstract.............................................................................................................................................. iii
Tabela de Conteúdos .......................................................................................................................... iv
Índice de Figuras ............................................................................................................................... vii
Índice de Tabelas .............................................................................................................................. vii
1. Capítulo I - Introdução ................................................................................................................. 1
1.1 Motivação ........................................................................................................................... 1
1.2 Objetivos ............................................................................................................................. 2
1.3 Organização do Documento ................................................................................................. 2
2. Capítulo II – Revisão da literatura ................................................................................................ 4
2.1. Qualidade de vida................................................................................................................ 4
2.1.1. Qualidade de vida relacionada com a saúde ................................................................. 5
2.1.2. Instrumentos de medida de QDVRS em Oncologia ........................................................ 5
2.2. Descoberta de Conhecimento em Bases de Dados .............................................................. 6
2.2.1. Business Intelligence ................................................................................................... 8
2.2.2. Data Mining ................................................................................................................. 8
2.2.3. Técnicas de Data Mining .............................................................................................. 9
2.2.4. Data Mining na Medicina ........................................................................................... 11
3. Capítulo III - Abordagem Metodológica ....................................................................................... 12
3.3. Questões Éticas ................................................................................................................ 16
3.4. Análise de Riscos .............................................................................................................. 17
4. Capítulo IV – Ferramentas ......................................................................................................... 18
4.1. Ferramentas de Data Sience ............................................................................................. 18
4.1.1. R ............................................................................................................................... 18
4.1.2. Python ............................................................................................................................ 19
vi
4.2. Dispositivo biométrico ....................................................................................................... 19
5. Capitulo V - Plano de Atividades ................................................................................................ 21
5.1. Descrição das Tarefas ....................................................................................................... 22
Fase 1 – Compreensão e Planeamento do Projeto ..................................................................... 22
Fase 2 – Projeto de Dissertação ................................................................................................ 22
Fase 3 – Dissertação ................................................................................................................ 22
Fase 4 - Escrita do Relatório de Dissertação .............................................................................. 26
6. Capítulo VI – Conclusões .......................................................................................................... 27
Referências ...................................................................................................................................... 28
vii
ÍNDICE DE FIGURAS
Figura 1 – Fases do CRISP-DM (Chapman et al., 2000) .................................................................... 15
Figura 2 - Diagrama de Gantt ............................................................................................................ 21
ÍNDICE DE TABELAS
Tabela 1 - Palavras-chave utilizadas na pesquisa ............................................................................... 13
Tabela 2 - Lista de Riscos ................................................................................................................. 17
1
1. CAPÍTULO I - INTRODUÇÃO
1.1 Motivação
A principal motivação do desenvolvimento desta dissertação é aliar a tecnologias de informação a área
da saúde. À medida que a tecnologia se torna cada vez mais integrada nos estilos de vida dos
consumidores, as inovações estão a alterar o tipo de informação recolhida e o seu método de utilização.
Os avanços tecnológicos também permitem que os sistemas de informação dos cuidados de saúde se
tornem mais holísticos e esféricos em foco, em vez dos relacionamentos lineares de causa e efeito das
gerações anteriores. A quantidade de dados gerada cresce de dia para dia. A necessidade de
compreender conjuntos de dados enriquecidos, grandes e complexos, aumentou em todos os campos.
Com esta grande quantidade de dados, a capacidade de extrair conhecimentos úteis escondidos nestes
é cada vez mais importante. O processo de aplicação de sistemas de informação, incluindo novas
técnicas, para a descoberta de conhecimento a partir de dados é denominado de data mining. Data
mining possui um grande potencial para o setor de saúde, uma vez que permite que os sistemas de
saúde usem sistematicamente dados e análises para identificar ineficiências e melhores práticas que
melhoram os cuidados e reduzem custos. Durante esta dissertação serão usados dados de pacientes
com cancro da cabeça e/ou pescoço, o que pode ser uma experiência angustiante para eles. Estes
pacientes não só têm que lidar com o risco de vida mas também com o impacto da doença no seu dia-
a-dia, como em comer, engolir, respirar e comunicar. Com data mining é possível comparar sintomas,
causas, tratamentos e efeitos negativos e, em seguida, proceder a analisar qual ação será mais eficaz
para um grupo de pacientes. Esta é também uma forma de desenvolver melhores padrões de
atendimento e práticas clínicas. Pessoalmente sempre gostei da área de business inteligence, mas
especificamente de data mining cujos conhecimentos fui adquirindo ao longo do percurso académico.
Esta dissertação está englobada num projeto desenvolvido pela organização Optimizer, universidade do
Porto e pela universidade do Minho. Assim pretende-se conceber um sistema de informação que utilizará
os dados físicos e comportamentais do doente, angariados através de sensores e de dispositivos móveis,
e dados sobre a qualidade de vida, adquiridos através de questionários dedicados ao efeito. Este SI
permitirá a previsão sobre as respostas dos pacientes a questionários que ajudarão na decisão clinica
por parte da equipa médica.
2
1.2 Objetivos
O principal objetivo deste estudo é o desenvolvimento de um Sistema Informação, que em simbiose
com técnicas de data mining permitirá avaliar a qualidade de vida de doentes oncológicos de forma
contínua, para auxiliar o processo de tomada de decisão por parte da equipa médica.
Para este objetivo ser alcançado, esta projeto engloba uma série de objetivos mais específicos:
Efetuar um estudo exaustivo sobre a qualidade de vida e data mining, com o objetivo de
dominar os conceitos e eleger técnicas data mining que melhor se adequam ao tipo de dados
recolhidos;
Definir e implementar métodos de análise e transformação de dados para aplicar as técnicas
de data mining previamente selecionadas;
Realizar um conjunto de testes aos diferentes dados, utilizando as técnicas identificadas, e
analisar detalhadamente os resultados obtidos;
Desenvolver um protótipo do sistema de informação que cumpra todos os requisitos;
Avaliar o protótipo desenvolvido com dados recolhidos a partir de pacientes reais.
1.3 Organização do Documento
A estrutura deste documento segue uma ordem lógica, proporcionando ao seu leitor o
enquadramento com o problema de uma forma sequencial. Permite, desta forma, uma interpretação
gradual dos conceitos inerentes a este, e que proporcionam, a aquisição do conhecimento necessário,
para a interpretação do capítulo seguinte. Esta ordem vai ao encontro da estrutura de grande parte das
dissertações de mestrado efetuadas até à data.
Este documento está estruturado em cinco capítulos que sucintamente se enunciam e descrevem
de seguida.
O capítulo I apresenta uma breve contextualização da temática em análise, com o intuito de dar a
conhecer os conceitos e objetivos associados ao projeto que compõem esta dissertação, bem como as
motivações que levaram a escolha deste tema.
O capítulo II é referente a revisão de literatura que consiste em avaliar e sintetizar os
conhecimentos atuais existentes relevantes para a execução e compreensão do trabalho. Este será
composto por duas vertentes. A primeira é refente à temática Qualidade de vida e Qualidade de Vida
3
Relacionada com a Saúde onde será feita uma abordagem geral as mesmas bem como uma enumeração
sobre os instrumentos de medida já implementados no Sistema de Apoio à Decisão Clínica QoLIS. O
segundo tema a ser considerado é a Descoberta de Conhecimento em Bases de Dados que visa, através
do estado da arte, enquadrar as técnicas de Data Mining, explicitando o processo requerido para proceder
à extração de conhecimento sobre determinados conjuntos de dados, assim como as medidas para
perceber o seu resultado e contributo.
O capítulo III é refente a abordagem metodológica, onde serão descritas todas as técnicas utlizadas
durante a realização do projeto, assim como a estratégia de pesquisa bibliográfica utilizada para a
realização do capítulo anterior.
O capítulo IV engloba as ferramentas que serão utilizadas durante o desenvolvimento do projeto,
mais especificamente o dispositivo biométrico e ambiental que será usado para recolha de dados, a
miscrosoft band 2, e o software que será utilizado para realizar as operações de Data Mining, o R.
O capítulo V contém o plano de trabalhos constituído pelas atividades e calendarização das
mesmas, uma matriz que contém as atividades e os objetivos e ainda os principais riscos do trabalho.
O capítulo VI e último capítulo contem as conclusões obtidas após o desenvolvimento dos capítulos
anteriores, identificando também o trabalho que se realizará na próxima fase deste estudo.
4
2. CAPÍTULO II – REVISÃO DA LITERATURA
2.1. Qualidade de vida
O termo qualidade de vida é bastante geral, este engloba vários fatores, nomeadamente
sentimentos, comportamentos relacionados com o dia-a-dia, incluindo, mas não se limitando, à sua
condição de saúde e às intervenções médicas (Seidl & Zannon, 2004). Este é normalmente
associado com a condição física e o bem-estar psicológico e social (Bowling, 1995). Devido a
ambiguidade deste tema, existem diversas definições conceptualmente diferentes do mesmo. Algumas
focam-se na no bem-estar, outras no contentamento com as diversas áreas da vida, outras na auto
realização material do individuo (Pires, 2009). Até ao final do seculo vinte, o bem-estar da comunidade
era avaliado em termos económicos, o banco mundial fez parte desta ideia e associou o bem-estar com
o rendimento per capita (Silva I. , 2003). Outros autores, que analisaram a qualidade de vida fora do
escopo da medicina, tentaram especificar os componentes que medem a qualidade de vida, chegando
a conclusão que este conceito é muito alargado, pois engloba sobre o individuo de uma forma intrincada
a sua saúde física, as relações sociais, o seu nível de autonomia e independência, as suas representações
e crenças, bem como a sua relação aos diversos elementos essenciais do seu ambiente (Silva & Branco,
2009). “Qualidade de vida é o grau de consciência entre a vida real e as expectativas do indivíduo,
refletindo a satisfação de objetivos e sonhos do próprio indivíduo” (Sampaio, 2007). Pires, 2009 citou a
OMS, 1994 na qual esta definiu o termo como “a perceção do indivíduo da sua posição na vida no
contexto da cultura e sistema de valores nos quais ele vive e em relação aos seus objetivos, expectativas,
valores, padrões e preocupações”. Este conceito tem vindo a ser compreendido por varias em
perspetivas, nomeadamente o bem-estar físico, psicológico e espiritual, além de aspetos sociais,
económicos e políticos.
5
2.1.1. Qualidade de vida relacionada com a saúde
O conceito qualidade de vida relacionada com a saúde (QVRS), é bastante frequente na literatura,
uma vez que é bastante semelhante ao do termo mais global. A utilização deste termo num contexto de
saúde, não é só importante por uma questão humanitária, como também por uma questão de avaliação
da eficácia dos serviços de saúde, isto porque fatores como o bem-estar ou mal-estar psicológico
parecem ter influência no funcionamento do corpo e na evolução da doença, no efeito da terapêutica e
até na própria longevidade (Pinto & Ribeiro, 2006). Através do reconhecimento de que um dos principais
objetivos dos cuidados de saúde é melhorar a qualidade de vida dos doentes, advém daí a importância
do conceito e da avaliação da qualidade de vida no contexto da saúde. Associado a este reconhecimento,
surge um movimento subjacente que visa a transição de contextos orientados por parâmetros tradicionais
de avaliação da doença que têm em conta as avaliações epidemiológicas ou pato fisiológicas para uma
abordagem mais abrangente que tenha em conta a vida nas suas múltiplas dimensões (Pinto & Ribeiro,
2000). O conceito de QVRS é de difícil definição, dadas as múltiplas variáveis que incidem sobre o seu
significado, desde uma conceção individual do sujeito até aos contextos históricos, culturais, sociais,
científicos e filosóficos que o resinificam, evidenciando-se a variedade de contextos da experiência
humana (Pinto & Ribeiro, 2006).
2.1.2. Instrumentos de medida de QDVRS em Oncologia
Para avaliar a Qualidade de Vida (QdV) dos doentes oncológicos da cabeça e pescoço comparam-
se dois dos questionários mais usados de Qualidade de Vida específicos para Oncologia já validados para
Portugal: o questionário QLQC30 e o seu módulo específico para doentes oncológicos da cabeça e
pescoço-QLQ-H&N35, da European Organization for Research and Treatment of Cancer (EORTC). A
primeira geração dos questionários EORTC QLQ foram projetados para ser (Fayers & Bottomley, 2002):
Específico para um tipo de cancro;
Estrutura multidimensional;
Adequado para autoadministração;
Aplicável em uma variedade de cenários culturais;
Adequado para uso com tratamentos adicionais e ou específicos.
6
Questionário EORTC QLQ-C30
O EORTC QLQ-C30 é um questionário desenvolvido para avaliar a qualidade de vida de doentes
oncológicos (Koller, et al., 2007). Este é formado por trinta perguntas, as quais se agrupam em cinco
escalas funcionais – física, emocional, desempenho, cognitiva e social – três escalas de sintomas -fadiga,
dor, náusea e vómito - seis itens para a avaliação de sintomas ou problemas adicionais (dispneia, perda
de apetite, insónia, dificuldades financeiras, obstipação e diarreia) e uma escala global de QDV. Todas
as escalas e itens variam numa pontuação dos 0 aos 100, sendo que à exceção das escalas funcionais
e da escala global de QDV, em todas as outras escalas e itens simples, uma pontuação elevada indica
pior QDV (Heutte, Plisson, Lange, Prevost, & Babin, 2014).
Questionário EORTC QLQ-H&N35
O questionário EORTC QLQ-H&N35 é focado para doentes que possuam cancro da cabeça e/ou
pescoço. Este possui trinta e cinco perguntas, que variam entre sintomas e efeitos colaterais do
tratamento, função social, imagem corporal e sexualidade. Incorpora sete escalas de sintomas (dor,
deglutição, paladar e olfato, fala, alimentação em público, contacto social e sexualidade) e onze itens
simples. Para todas as escalas e itens simples uma pontuação elevada significa pior QDV. Os dados
obtidos correspondem ao estado do doente durante a última semana (Heutte, Plisson, Lange, Prevost,
& Babin, 2014); (Koller, et al., 2007).
2.2. Descoberta de Conhecimento em Bases de Dados
O termo Descoberta de Conhecimento em Bases de Dados (DCBD), surgiu em 1989 para se referir
ao amplo processo de descoberta de conhecimento em dados e, enfatizar a "alto nível" da aplicação de
determinados métodos de data mining (DM) Fayyad et al. (1996) considera DM como uma das fases do
processo de DCBD. Este processo, depende de técnicas de análise de dados, dentro das quais se
encontra o DM, que é um conjunto de técnicas que efetuam a extração do conhecimento (Santos &
Azevedo, 2005). A DCBD pode ser definida como o processo de identificar padrões e/ou modelos, a
partir de dados em bruto, que sejam novos, potencialmente úteis e compreensíveis (Fayyad). As
aplicações de DCBD integram teorias, métodos e algoritmos provenientes das áreas de inteligência
artificial, aprendizagem automática, reconhecimentos de padrões, estatística, base de dados e outras,
tendo como objetivo a extração de conhecimento a partir de grandes bases de dados (Fayyad). Os
algoritmos utilizados para procurar padrões nos dados são denominados de algoritmos de data mining
7
(DM). O processo global de DCBD, que se desenvolve em várias fases, inclui a utilização de algoritmos
de DM e a interpretação de padrões encontrados pelos mesmos, os quais são posteriormente utilizados
no suporte à tomada de decisão (Santos & Ramos, 2006).
“É o valor atribuído à duração da vida, modificado pelos prejuízos, estados funcionais e
oportunidades sociais que são influenciados por doença, tratamento ou políticas de saúde.” (Patrick e
Erickson,1993 cit in Ebrahim,1995 – p. 1384) “uma perspetiva de cuidados de saúde, a qualidade de
vida pode referir-se ao bem-estar social, emocional e físico dos doentes a seguir ao tratamento, resultados
e estado de saúde e perspetivas futuras.”(Bowling, 1995 cit in Pinto e Ribeiro, 2000 – p.12) “A avaliação
da qualidade de vida de pessoas que sofrem de uma doença tem a especificidade de o elemento central
ser a saúde das pessoas, ou melhor, o que se avalia é em que medida os diversos domínios são
influenciados pelas características da doença que afeta a pessoa. A qualidade de vida nesta perspetiva
é frequentemente denominada Qualidade de Vida Relacionada com a Saúde.” (Ribeiro, Meneses e
Meneses, 1998 cit in Correia, 2007 – p.39) A QVRS é um conceito que se centra na avaliação subjetiva
do doente, mas está inequivocamente relacionado com o impacto do estado de saúde na capacidade do
indivíduo viver plenamente. Por sua vez, o conceito de qualidade de vida é mais geral e possui uma
multiplicidade de condições que podem afetar a perceção do indivíduo, dos seus sentimentos e
comportamentos relacionados com o seu dia-a-dia, incluindo, mas não se limitando, à sua condição de
saúde e às intervenções médicas (Correia, 2007). Luce e Elixhauser (1990) definem cinco dimensões
principais de QVRS, são elas a função física que incluí aspetos como a mobilidade, a capacidade de
cuidar de si próprio, a capacidade para realizar as atividades de vida diária, a dor física e sintomas físicos;
a função psicológica que inclui aspetos como a depressão, o comportamento colérico, a ansiedade, a
sensação de abandono e as expectativas acerca do futuro; a função social que inclui a participação em
atividades sociais, a função sexual, o relacionamento familiar e as atividades recreativas; a função
cognitiva que inclui aspetos como a memória, o estado de alerta e a capacidade de decisão/julgamento;
e o bem-estar geral que se refere à saúde em geral, às perceções e satisfação com a vida. 38 Na
sociedade atual, a qualidade de vida é um tema de extrema importância e é utilizada como uma medida
de resultados dos cuidados e intervenções em saúde. Assim, e ao contrário do que se passava acerca
de 60 ou 70 anos atrás, a questão mais importante não reside em saber se o doente sobrevive ou se vai
morrer, já que, os avanços na medicina resolveram, em grande parte, essa situação. Torna-se, então,
fundamental saber se os indivíduos que vivem com determinada doença (essencialmente a doença
crónica) conseguem viver a sua vida diária com a mesma qualidade de vida das pessoas que não sofrem
de nenhuma doença. Assim, no capítulo atual será explorado o impacto do VIH na qualidade de vida dos
8
doentes infetados, ou seja, o impacto na própria pessoa. Será feita ainda referência à medição dessa
mesma qualidade de vida nos doentes infetados pelo VIH, assim como a utilização da qualidade de vida
nos estudos de avaliação económica.
2.2.1. Business Intelligence
O termo Business Intelligence (BI) é abrangente, combina arquiteturas, bases de dados,
ferramentas analíticas, aplicações e metodologias (Turban, Sharda, Delen, & King, 2011). O principal
objetivo do BI é disponibilizar o acesso interativo (por vezes em tempo real) de dados, para permitir a
sua manipulação, dando aos gestores de negócios e analistas a capacidade de executar um estudo
adequado (Turban, Sharda, Delen, & King, 2011). Ao analisar dados históricos e atuais, os decisores
obtêm informações valiosas que lhes permitem tomar melhores e mais informadas decisões. O processo
de BI baseia-se na transformação dos dados em informação, para em seguida dar origem à decisão e
finalizar com a ação (Turban, Sharda, Delen, & King, 2011). Os sistemas de BI combinam dados com
ferramentas analíticas, de forma a disponibilizar informação relevante para a tomada de decisão, o seu
objetivo é portanto melhorar a qualidade e disponibilidade da informação (Cody, Kreulen, Krishna, &
Spangler, 2002) Estes sistemas têm aplicado: a funcionalidade, a escalabilidade e a segurança dos atuais
sistemas gestores de bases de dados para construir Data Warehouses (DW) que são analisados com
técnicas de On-Line Analytical Processing (OLAP) e de DM (Santos & Ramos, Business Intelligence:
Tecnologias da Informática na Gestão de Conhecimento, 2006).
2.2.2. Data Mining
O DM é um processo que usa técnicas estatísticas, matemáticas e de inteligência artificial, para
extrair e identificar informação útil e subsequente conhecimento de grandes bases de dados. Isto é
conseguido através da descoberta de padrões matemáticos, que podem ser regras, afinidades,
correlações, tendências, ou modelos de previsão (Nemati & Barko, 2001). Na prática, as tarefas
associadas ao DM, podem ser divididas em três grupos: previsão, associação e clustering. Com base na
forma como os padrões são extraídos a partir dos dados históricos, os algoritmos dos métodos de
aprendizagem em DM podem ser classificados como supervisionados ou não supervisionados (Turban,
Sharda, Delen, & King, 2011). Nos algoritmos de aprendizagem supervisionados, os dados de
aprendizagem incluem tanto os atributos descritivos (i.e. variáveis independentes ou variáveis de
9
decisão), bem como o atributo de classe (i.e. variável de saída ou variável resultado). Em contraste, com
a aprendizagem não supervisionada, os dados de aprendizagem incluem apenas os atributos descritivos
(Turban, Sharda, Delen, & King, 2011). No grupo da previsão, as tarefas de DM incluem dois grandes
modelos supervisionados: modelos de Classificação e modelos de Regressão. Os modelos de regressão
são utilizados sempre que se pretender prever uma variável com valores contínuos (Santos & Ramos,
Business Intelligence: Tecnologias da Informática na Gestão de Conhecimento, 2006). Por exemplo, um
regressor pode prever, de acordo com os resultados das análises, a probabilidade que um doente tem
de viver. Relativamente aos classificadores, a classificação aprende com as características das variáveis
independentes e de saída, através de um processo de aprendizagem supervisionada, em que ambos os
tipos de variáveis são apresentados ao algoritmo (Turban, Sharda, Delen, & King, 2011).
2.2.3. Técnicas de Data Mining
Tendo em consideração o âmbito deste projeto de dissertação e os objetivos das análises a
realizar, está previsto a utilização das seguintes técnicas. Não excluindo que futuramente possam ser
incluídas outras técnicas.
Árvores de Decisão para Turban, as ADs servem para classificar os dados, num número finito de
classes, com base nos valores de entrada. As ADs são uma simples representação do conhecimento,
muito eficiente na construção de classificadores que preveem classes baseadas nos valores de atributos
de um conjunto de dados (Turban, Sharda, Aronson, & King, 2008). As AD são, essencialmente
compostas por uma hierarquia de declarações ”se e então” e são, portanto, significativamente mais
rápidas, exigindo menor esforço computacional, relativamente às Redes Neuronais Artificiais (RNA)
(Turban, Sharda, Delen, & King, 2011). Estes algoritmos são mais apropriados para dados discretos ou
divididos em intervalos. Portanto, incorporar as variáveis contínuas numa estrutura de AD requer
discretização, isto é, converter variáveis contínuas em categorias de gamas numéricas dados (Turban,
Sharda, Aronson, & King, 2008).
Máquinas de Vetores de Suporte é uma técnica introduzida por Cortes e Vapnik (1995), como uma
nova técnica para resolver problemas de reconhecimento de padrões. Segundo a teoria das MVSs
(Cortes, 1995) as técnicas tradicionais de reconhecimento de padrões são baseados na minimização do
risco empírico. As MVSs minimizam o risco estrutural – isto é, a probabilidade de classificar mal padrões
de dados desconhecidos segundo uma distribuição de probabilidade. O que faz com que as MVSs sejam
10
atrativas, devido à capacidade de condensar a informação contida no conjunto de treino e o uso de
famílias de decisão de relativa baixa dimensão (Pontil & Verri, 1998)
Naive Bayes é um algoritmo de classificação, baseado no teorema de Bayes, que prevê a
probabilidade de um conjunto de dados pertencer a uma determinada classe (Langley & Sage, 1994). O
classificador Naive Bayes supõe independência de atributos dentro de cada classe, o que permite que
esta use a seguinte igualdade:
Nesta os valores de p(xi|wj) representam as probabilidades condicionais armazenados em cada classe.
Esta abordagem simplifica o cálculo das probabilidades de classe para uma dada observação (Langley
& Sage, 1994). Para Langley e Sage (1994), a aprendizagem do classificador, baseia-se em incrementos
simples de contagem cada vez que encontra uma nova instância, juntamente com uma contagem
separada para uma classe, cada vez que encontra uma instância da classe. Estas contagens deixam a
estimativa no classificador p(wj) para cada classe wj, sendo que, para cada valor nominal, o algoritmo
atualiza a contagem para esse par classe-valor (Langley & Sage, 1994). A segunda contagem deixa a
estimativa no classificador p(xi|wj), sendo que, para cada atributo numérico, o método mantém duas
quantidades, a soma e a soma dos quadrados, que permite calcular a média e a variância para uma
curva normal usada para encontrar p(xi|wj) (Langley & Sage, 1994). O classificador Naive Bayes é um
método simples e leve, amplamente testado para a indução probabilística, é especialmente eficiente
quando o volume dos dados de entrada é grande (Langley & Sage, 1994). O Naive Bayes apresenta um
melhor desempenho relativamente a muitos métodos de classificação sofisticados (Friedman &
Goldszmidt, 1996).
O Clustering permite agrupar os dados em conjuntos homogéneos. Estes visam segmentar uma
população heterogénea num determinado número de subgrupos (classes) compostos de observações
que partilhem características similares, ao contrário das observações incluídas em grupos diferentes que
apresentam características distintas. No Clustering não existem classes pré-definidas para classificar os
dados em estudo (Vercellis, 2009),pois estes são agrupados com base na sua homogeneidade. Diversos
algoritmos podem ser utilizados para identificar segmentos nos dados.
As Regras de Associação são conhecidas também como grupos de afinidade, e são normalmente
utilizadas para identificar associações interessantes e recorrentes em grupos de dados (Vercellis, 2009).
Esta técnica é simples e intuitiva, e é frequentemente utilizada para investigar as transações de vendas
11
e análise de mercado (Vercellis, 2009). Nas Regras de Associação os resultados surgem em forma de
regras (A → B) onde A e B podem ser proposições verdadeiras ou falsas. Se A for verdade B também é
verdadeiro, isto é, se A está presente, então B também tem probabilidade de estar presente, onde A
representa um conjunto de atributos e B um único atributo que não se encontra presente em A. As regras
apresentam duas medidas a si associadas: (1) suporte e (2) confiança. A medida de suporte representa
o número de ocorrências de uma regra nos dados (e.g. número de vezes que A está associado a B), ou
seja, são os registos que satisfazem a regra. A medida de confiança representa a probabilidade
condicional da regra, sendo obtida através da divisão entre o número de casos onde A e B aparecem
juntos pelo número de casos onde só aparece o B, ou seja, é o número de registos em que será possível
prever B conhecendo A (Santos & Ramos, 2009).
2.2.4. Data Mining na Medicina
A área da saúde lida com grandes volumes de dados, estes são armazenados devido a sua
importância, uma vez que possuem informação sobre pacientes nomeadamente o seu historial clinico,
este tipo de dados não pode ser tratado manualmente (Gomathi & Narayani, 2015). A recolha, gestão,
análise e interpretação da informação são fundamentais para a medicina clínica e cuidados de saúde,
nomeadamente na tomada de decisão relativa à classificação, tratamento e gestão de doenças (Shortliffe
& Barnett, 2001).
Ao longo dos últimos anos o termo data mining tem sido cada vez mais abordado na literatura
médica, tendo as técnicas de DM despertado um grande interesse por parte dos investigadores na área
da saúde. No entanto a sua aplicação tem sido limitada (Bellazzi & Zupan, 2008).
As primeiras aplicações de tratamentos de dados e de machine learning no cancro foram utilizadas
no apoio à deteção e diagnóstico, e iniciaram-se em finais da década de 80 no diagnóstico de cancro da
mama e do sistema digestivo (Graham & S, 1990). Kononenko em 1993 refere a aplicação de sistemas
de aprendizagem de árvores de decisão e do classificador Naive Bayes em problemas de diagnóstico
(localização de tumores primários, recorrência do cancro da mama, tumores da tiroide e reumatologia)
(Kononenko, 1993). O objetivo de obter prognósticos no cancro é diferente do objetivo da deteção e
diagnóstico. No prognóstico é medicamente útil saber informações dos riscos a que o doente pode estar
sujeito, conhecer a probabilidade de recorrência do cancro e qual a probabilidade de sobrevivência de
um doente ao longo do tempo. Os modelos de prognóstico podem prever doenças e seus tratamentos.
São importantes para ajudar no tratamento da grande quantidade de dados que surgem atualmente de
12
doentes que sofreram de cancro e que ao longo da doença viveram diferentes tratamentos e diferentes
respostas obtendo de diferentes formas e tempos o mesmo resultado (Silva A. , 2007).
3. CAPÍTULO III - ABORDAGEM METODOLÓGICA
Neste capítulo serão abordados conceitos e metodologias imprescindíveis para o entendimento
deste trabalho. Uma das definições mais simples de pesquisa será, a obtenção de respostas por meio
do uso de métodos científicos, para as questões ou problemas propostos. Tendo como ponto de partida
uma dúvida levantada ou um problema a ser resolvido e fazendo uso de um ou mais métodos científicos,
a pesquisa tem o objetivo de buscar uma solução ou resposta para a dúvida levantada ou o problema
em questão.
Começa-se por abordar a estratégia usada na revisão da literatura e de seguida a metodologia de
data mining utilizada, bem como uma das aplicações mais comuns desta, a classificação.
3.1. Pesquisa Bibliográfica
Tendo como base a literatura traçou-se um quadro teórico a fim de sustentar o desenvolvimento
da pesquisa, alinhando-o com os objetivos deste projeto. O conhecimento e a comparação puderam ser
feitos com base nos trabalhos relacionados ao tema da pesquisa. O método aplicado nesta pesquisa foi
o método indutivo, o qual dá privilégio a observação para se alcançar os objetivos. No método indutivo
se todas as premissas são verdadeiras, a conclusão é provavelmente será verdadeira, mas não
necessariamente (Prodanov & Freitas, 2013).
Quanto ao ponto de vista dos procedimentos técnicos foram utilizadas fontes bibliográficas, para
o desenvolvimento da argumentação teórica, ou seja, a elaboração do conteúdo teórico da pesquisa deu-
se a partir de material já publicado, constituído de livros, artigos de periódicos e também de material
disponibilizado na Internet mais especificamente as plataformas Google Académico, RepsitoriUM,
Scopus/Elsevier, Web of Knowledge e ResearchGate.
Sob o ponto de vista da abordagem ao problema foi necessário realizar pesquisas tanto em
português como inglês, nas quais foram utilizadas as palavras-chave que se encontram na tabela
seguinte.
13
Tabela 1 - Palavras-chave utilizadas na pesquisa
Idioma
Palavras-chave Português Inglês
Qualidade de vida
Qualidade de Vida Quality of Life
Qualidade de vida na oncologia Quality of Life in oncology
Qualidade de vida e cancro Cancer and Quality of life
Qualidade de Vida Relacionada
com a Saúde Quality of Life Related to Health
Descoberta de conhecimento
em bases de dados
Data mining na oncologia Data Mining in Oncology
Descoberta de Conhecimento
em Bases de Dados
Knowledge Discovery in
Databases
Mineração de Dados Data Mining
Sistemas de Informação Information systems
Data mining na Medicina Data Mining in Medicine
Informática Médica Medical Informatics
Técnicas de Data Mining Data Mining Techniques
Ferramentas á serem utilizadas
durante o desenvolvimento do
projeto
Ferramentas de Data Mining Data Mining Tools
Data Mining com o R Data Mining withR
Data Mining em Phyton Data Mining in Phyton
Microsoft Band 2 --------------------------------------------------------
Metodologia
Ciência dos Dados Data Science
Metodologia Crisp-Dm Crisp-Dm methodology
Perante o ponto de vista dos objetivos, a pesquisa pode ser classificada como exploratória. Na
exploração procurou-se maior familiaridade com o problema objetivando-o torná-lo explícito.
3.2. Data Mining
14
No desenvolvimento desta dissertação será utilizada uma metodologia baseada no standard para
a implementação de projetos de data mining: o CRISP-DM (Cross-Industry Standard Process for Data
Mining). O CRISP-DM é uma metodologia de DM (data mining) que define uma abordagem a seguir na
implementação de projetos de data mining, ajudando também na resolução de problemas tipo típicos
em projetos de DM (Chapman, et al., 2000). Em 1996, quando o DM era uma área ainda pouco
conhecida, mas que ia ganhando adeptos a cada dia que passava, não existia uma metodologia de
implementação de processos de DM bem definida e documentada. A necessidade de um standard, que
fosse independente da indústria, gratuito, sem proprietário e capaz de auxiliar as industria no
desenvolvimento dos seus projetos de DM seguindo boas práticas, impeliu quatro líderes da área de DM
a desenvolver o CRISP-DM. Estes quatro líderes foram: a Daimler-Benz, a Integral Solutions Ltd, a NCR
e a OHRA. No ano seguinte vir-se-ia a formar um consórcio – CRISP-DM SIG (CRISP-DM Special Interest
Group) – com o objetivo de aperfeiçoar a metodologia. Em 2000, foi apresentada a versão 1.0 do CRISP-
DM, espelhando as melhorias que foram sendo adotadas desde a apresentação da metodologia original.
O CRISP-DM é atualmente a metodologia mais seguida pelos especialistas de DM, inclusive, em votações
realizadas pela KDNuggets, o CRISP-DM apresentava-se como a metodologia mais usada, sempre com
larga vantagem em relação às suas concorrentes.
3.2.1. Vantagens do CRISP-DM
A utilização da metodologia CRISP-DM permite várias vantagens, nomeadamente: torna a
implementação de projetos de DM mais rápida, mais simples, mais barata, e mais fácil de gerir; é
independente da indústria e da ferramenta de mineração de dados; é ainda idêntica à filosofia presente
no ramo KDD. Ao definir uma metodologia a seguir, bem documentada e facilmente aplicável, permite-
se simplificar a implementação de projetos de DM, tornando-os mais rápidos, mais baratos e mais fáceis
de gerir. A CRISP-DM é também independente da indústria e da ferramenta usada para a implementação.
Isto quer isto dizer que pode ser usada independentemente do negócio em causa (saúde, comercio,
retalho, etc.), bem como fazendo uso de qualquer ferramenta de data mining. A metodologia relaciona-
se ainda com o conhecido paradigma KDD, já familiar aos profissionais de data mining, o que facilita
ainda mais a adoção da metodologia.
15
Figura 1 – Fases do CRISP-DM (Chapman et al., 2000)
O processo de CRISP-DM divide-se em várias fases. Na Figura 1 é possível observar a natureza
cíclica do processo, as dependências entre as várias fases, e a possibilidade de a execução de uma fase
encadear novas questões, mais focadas e específicas, que originam um regresso à fase anterior. As
várias fases da CRISP-DM são apresentadas com mais detalhe na secção seguinte (Chapman, et al.,
2000).
3.2.2. Fases do CRISP-DM
A CRISP-DM é uma metodologia de data mining, que permite a todos os profissionais de data
mining, do mais inexperiente até ao utilizador mais especialista, seguir um mapa, ou desenho técnico,
que lhe permite conduzir todo o projeto de data mining, de forma simples, eficiente e com sucesso. O
CRISP-DM divide o processo em seis fases distintas:
1. Compreensão do negócio - Nesta fase, pretende-se compreender o negócio, com foco nos
objetivos do projeto e nos requisitos do ponto de vista do negócio, convertendo depois os
objetivos do negócio em objetivos de DM. Depois, deve ser traçado um plano que valide a
satisfação dos objetivos (Chapman, et al., 2000);
2. Compreensão dos Dados - Nesta fase, dá-se início à recolha e consequente exploração dos
dados, com vista à sua compreensão, análise e identificação de problemas de qualidade dos
mesmos. Segue-se a identificação de relações entre os dados ou, a deteção de subconjuntos
16
interessantes destes, a fim de serem analisados posteriormente de forma a permitir identificar
conhecimento oculto (Chapman, et al., 2000);
3. Preparação dos Dados - Esta fase envolve todas as atividades necessárias para a construção do
conjunto final de dados. Estes dados serão usados pelas ferramentas de modelação para
posteriormente serem analisados pelos algoritmos de DM. As tarefas de preparação dos dados
incluem a seleção de tabelas, atributos e registos, bem como a transformação e limpeza dos
dados, com vista à sua posterior análise pelas ferramentas de modelação (Chapman, et al.,
2000).
4. Modelação - Nesta fase, são selecionadas várias técnicas de modelação e os seus parâmetros
são ajustados de forma a otimizar os resultados. Normalmente, existem várias técnicas para o
mesmo tipo de problema de DM, sendo que algumas têm requisitos específicos sobre a forma
como os dados são apresentados, por isso, pode ser necessário voltar à fase de preparação de
dados (Chapman, et al., 2000).
5. Avaliação - Esta fase tem como finalidade avaliar a utilidade dos modelos. Antes de proceder à
implementação final dos modelos, é importante avaliá-los cuidadosamente, rever os passos
executados na sua construção, de forma a ter a certeza que se atingiram os objetivos do negócio,
assim como, avaliar se alguma questão importante para o negócio não tenha sido considerada
(Chapman, et al., 2000).
6. Implementação - A criação dos modelos não marca o fim do projeto. Mesmo que o objetivo dos
modelos seja aumentar o conhecimento sobre os dados, a informação obtida tem que ser
organizada e apresentada para que o utilizador a possa utilizar. No final do projeto, será realizado
um relatório final. Dependendo do plano de implementação, o relatório pode ser apenas um
resumo do projeto ou pode ser uma apresentação final e abrangente do resultado de todo o
processo de DM (Chapman, et al., 2000).
3.3. Questões Éticas
As principais preocupações éticas no decorrer deste projeto relacionam-se com a
confidencialidade e proteção dos dados obtidos, não se afigurando qualquer distribuição ou utilização
dos mesmos, que não os previsto originalmente junto da organização Optimizer. Frisando que o projeto
em questão não desenvolverá qualquer tipo de atividade que ponha em risco a componente física dos
pacientes.
17
3.4. Análise de Riscos
Na seguinte tabela estão representados os riscos que são considerados de ocorrerem e
consequentemente de afetarem o desenvolvimento do projeto. Estes são apresentados pelo ID e
designação, bem como uma breve descrição do mesmo. A tabela será organizada pelo grau de seriedade,
que advém da multiplicação entre os valores da probabilidade e os valores do impacto, ambos valorizados
na escala de 1 a 5.
Tabela 2 - Lista de Riscos
ID Risco Descrição Probabilidade (P) [1-5]
Impacto (I) [1-5]
Seriedade [P*I]
Medidas atenuantes
1 Tempo de desenvolvimento longo
A execução do projeto requer muitas horas de trabalho.
3 3 9 O planeamento deve ser elaborado cuidadosamente, contemplando todas as condicionantes a nível de tempo. Melhor gestão da carga horaria.
2 Dificuldades de manuseamento das ferramentas
Devido a inexperiência no manuseamento das mesmas.
4 5 20 Aquando da calendarização das tarefas, atender a que será necessário atribuir a tempo às mesmas para o estudo das tecnologias e dos conhecimentos necessários para o desenvolvimento.
3 Atividade extracurriculares
Existem diversas atividades ou trabalhos extracurriculares que poderão tirar o foco e tempo para o desenvolvimento do projeto.
3 2 6 Fazer uma boa gestão dos recursos disponíveis, ou seja, calendarizar de forma eficiente todos os momentos de trabalho extra-aulas.
4 Dificuldade de comunicação entre as partes interessadas no projeto
Pode acontecer devido a incompatibilidade de horário livre.
1 3 3 Incentivar o melhoramento e a disponibilidade dos canais de comunicação.
5 Atraso nas Entregas
Por diversos fatores podem ocorrer atrasos nas entregas.
1 4 4 Definir datas de entregas que sejam possíveis de cumprir.
6 Especificação desadequada dos modelos
Devido a uma má compreensão dos requisitos
2 5 10 A fase de Avaliação do CRISP-DM serve de ação atenuante desse risco.
18
4. CAPÍTULO IV – FERRAMENTAS
4.1. Ferramentas de Data Sience
Data science é um campo emergente que intersecta data mining, machine learning, predictive
analytics, statistics, e business intelligence (Dhar, 2013). Para a realização deste projeto é essencial
selecionar a ferramenta mais apropriada ou conjunto de ferramentas para usar nas tarefas de data
science do projeto, assim neste capítulo serão apresentadas e analisadas duas destas.
A análise preditiva, é o processo de empregar métodos empíricos para gerar previsões de dados
(Shmueli & Koppius, 2011). A análise preditiva frequentemente envolve métodos estatísticos, como
análise de regressão, para fazer previsões com base em dados. Esta tem uma ampla gama de aplicações
de marketing, finanças e aplicações clínicas. As aplicações clínicas incluem suporte à decisão clínica,
determinando quais pacientes estão em risco para readmissão hospitalar ou modelagem de interação
medicamentosa (Raghupathi & Raghupathi, 2014).
O termo machine leaning refere-se à deteção automatizada de padrões de dados. Nas últimas
duas décadas, tornou-se uma ferramenta comum uma vez que quase qualquer tarefa que requer
extração de informações de grandes conjuntos de dados (Smola & Vishwanathan, 2008).
Seguidamente serão apresentadas duas ferramentas open source. Estas foram após um estudo
realizado pela equipa do projeto Qvida+ selecionadas como as mais apropriadas para o desenvolvimento
do projeto. O software escolhido foi o R, no entanto o Phyton não foi totalmente excluído uma vez que
poderá ser utilizado posteriormente em combinação com o R (Urbano, Nogueira, Rocha, & Cardoso,
2016). O software de código aberto é um software onde o desenvolvimento e o código fonte são
disponibilizados publicamente e projetados para negar a qualquer pessoa o direito de explorar o software
(Laurent, 2004). Open source refere-se geralmente ao código-fonte da aplicação que está livre e
abertamente disponível para modificações, permitindo a qualquer pessoa desenvolver extensões ou
personalizações.
4.1.1. R
R é uma ferramenta open source e a linguagem de programação mais escolhida para análises
estatísticas. Esta tem estado em desenvolvimento nos últimos anos e é o sucessor da ferramenta S, uma
linguagem estatística originalmente desenvolvida pela Bell Labs em 1970. O código-fonte de R é escrito
19
em C ++, Fortran, e no próprio R. (Simon, 2003). É uma linguagem interpretada e é principalmente
otimizada para cálculos baseados em matrizes. O idioma principal é estendido por uma miríade de
pacotes para todos os tipos de tarefas computacionais (Zhao, 2013).
O R é tradicionalmente utilizado através da linha de comandos. No entanto, existem muitas feely
disponíveis ferramentas de código aberto que integram em R. Um tal exemplo é R Studio que fornece
uma interface gráfica de usuário para R. R pode ser empregado para uma variedade de estatísticas e
tarefas de análise, incluindo mas não limitado a clustering, regressão, Análise de séries temporais,
mineração de texto e modelagem estatística. R é considerado uma linguagem interpretada mais do que
um ambiente. O principal problema de R é sua linguagem, que, embora altamente extensível, também
é difícil de aprender o suficiente para se tornar produtiva em DM.
4.1.2. Python
Python foi criado por Guido Van Rossem em 1991, a sua filosofia enfatiza a produtividade,
legibilidade e simplicidade. Esta linguagem de programação é maioritariamente utilizada para análise de
dados ou aplicação de técnicas estatísticas (Sheppard, 2014).
Tal como o R, Python também possui pacotes. PyPi é o índice de Pacotes Python e consiste em
bibliotecas às quais os utilizadores contribuem. Assim este também possui uma grande comunidade,
mas é um pouco mais dispersa, uma vez que é uma linguagem de uso geral (Nielsen, 2015).
4.2. Dispositivo biométrico
Já como falado anteriormente, os dados serão recolhidos através de um dispositivo biométrico
(dispositivos que medem aspetos físicos e comportamentais do doente e outros que medem informação
ambiental), que após um estudo realizado pela equipa Qvida+, se constatou como sendo a Microsoft
band 2.Esta é a uma pulseira inteligente de segunda geração com recursos smartwatch desenvolvidos
pela Microsoft. Foi anunciada em 6 de outubro de 2015, sucedeu a primeira band da Microsoft e foi
inicialmente disponibilizada nos Estados Unidos, Reino Unido e Canadá. Esta possui os seguintes
sensores (Microsoft, 2017):
Monitor de frequência cardíaca ótica;
Acelerómetro de três eixos;
Gramómetro;
20
GPS;
Microfone Sensor de luz ambiente;
Sensores galvânicos de resposta cutânea;
Sensor UV Sensor de temperatura da pele;
Sensor capacitivo Barômetro.
Esta possui ainda sensores para monitorizar os padrões de sono, ou seja, apresenta informação
sobre a qualidade do sono baseado no ritmo cardíaco e na sua duração (Microsoft, 2017).
21
5. CAPITULO V - PLANO DE ATIVIDADES
Este capítulo inclui o plano de atividades da Dissertação, para melhor compreender o que se irá
passar nos meses que se seguem, no âmbito do projeto de Dissertação, e quais as atividades que já
foram realizadas para a entrega da Proposta de Dissertação. O planeamento da Dissertação tem como
base as fases do CRISP-DM, enquanto a Proposta de Dissertação se centra na revisão de literatura.
Na figura é possível observar de forma gráfica, a calendarização das tarefas que vão ser
desenvolvidas, no decorrer deste projeto.
Figura 2 - Diagrama de Gantt
22
5.1. Descrição das Tarefas
Seguidamente, listam-se e descrevem-se sumariamente as atividades a desenvolver no contexto
deste projeto.
Fase 1 – Compreensão e Planeamento do Projeto
Esta engloba as duas primeiras atividades que se encontram no diagrama, estas já ocorreram e
englobaram uma primeira abordagem ao projeto.
Fase 2 – Projeto de Dissertação
Nesta fase, primeiramente foi estudado o problema e o seu grau de complexidade e os objetivos
a cumprir. Ao analisar os conceitos relacionados com o projeto foi possível obter uma contextualização
do problema onde foi adquirida uma primeira visão sobre quais os conceitos que vão ser alvo de estudo
e quais os procedimentos, que de grosso modo vão permitir alcançar a solução do mesmo.
Posteriormente foi realizada a revisão da literatura divida em dois capítulos, abordando as
temáticas de Qualidade de Vida e Descoberta de Conhecimento em Bases de Dados.
Fase 3 – Dissertação
Compreensão do negócio
Esta é possivelmente a fase mais importante de todo o processo, já que uma má implementação
desta fase implicará maus resultados em todas as outras fases, podendo por em causa o sucesso de
todo o projeto. Esta fase divide-se em várias subfases. Iniciamos o trabalho com a análise do problema
do ponto de vista do negócio ou funcional e a compreensão dos objetivos do ponto de vista do cliente,
pois só após uma compreensão profunda do tema em questão e só após se compreender o que o cliente
realmente pretende, é que se poder avançar para a próxima fase do projeto. Nesta fase é também
definido os objetivos do ponto de vista lógicos. Depois de conhecido o negócio, são avaliadas as condições
para a realização do projeto. Aqui é, portanto, analisada a viabilidade do que se pretende fazer. De
seguida esta informação é transformada num problema de data mining, no qual é definido qual será o
objetivo do ponto de vista técnico. Após a compreensão do problema do ponto de vista do negócio, de
analisada a viabilidade e de definidos os objetivos a alcançar, é elaborado um plano de projeto.
23
No plano de projeto deve-se especificar como se pretende obter os objetivos técnicos definidos
anteriormente, este plano inclui o timeline do projeto, uma análise dos potenciais riscos, e um
levantamento das ferramentas e técnicas a usar para atingir os objetivos.
Compreensão dos dados
A primeira etapa desta fase é a recolha de dados iniciais, que consiste em carregar, e por vezes
integrar de forma uniforme, os dados provenientes de diferentes fontes. Após esta recolha dos dados
iniciais, é feita uma descrição dos dados, esta fase consiste numa análise superficial dos dados, de modo
a recolher informação sobre os mesmos. É recolhida informação sobre os formatos, a quantidade dos
dados, o número de campos e registos em cada tabela, entre outro tipo de informação. O mais
importante desta fase é determinar se os dados obtidos satisfazem os requisitos para a modelação que
se segue, e também, durante o processo, ficar a conhecer as características dos dados que se irá usar.
Após a descrição dos dados, onde é feito um levantamento sobre as características dos dados, é realizada
a fase de exploração dos dados, em que são explorados os dados de forma mais profunda, realizando-
se pesquisas aos dados, visualizando-os e gerando relatórios, de maneira a compreender as suas
características não superficiais. Nesta fase deve-se concentrar em analisar os dados de forma orientada
à temática do data mining, tentando descobrir, de forma preliminar, padrões ou relações entre os dados.
A última etapa da análise dos dados consiste em estudar a qualidade dos dados. Nesta etapa são
analisadas questões como a existência de valores a nulo e a branco (missing values e blank fields),
muitas vezes resultantes de recolha de dados ao longo de um longo período temporal. É também
analisado o universo de valores possíveis para cada atributo, ou seja, se os valores que um atributo toma
fazem sentido (por exemplo uma variável que indique a idade contendo valores negativos não faz sentido).
É ainda estudada nesta fase a existência de atributos com o mesmo significado, a existência de outliers,
e também a existência de valores que contradigam o senso comum.
Tratamento dos dados
Nesta fase, o analista usa o conhecimento adquirido nas duas fases anteriores para preparar os
dados, de modo a estes poderem ser sujeitos à ferramenta de modelação. Esta fase compreende várias
tarefas sobre os dados, entre elas a seleção de dados, a sua limpeza, a sua transformação, a sua
integração e a sua formatação. A seleção de dados consiste, como a própria palavra indica, em selecionar
os dados que serão utilizados de facto no projeto e aqueles que serão descartados. Esta seleção é feita
24
tendo em conta os objetivos da modelação e as restrições técnicas, isto é, deveremos descartar os
atributos que nada ou pouco estejam relacionados com o objetivo do projeto, bem como as variáveis
que, apesar de poderem ser úteis, a sua volumetria torna o seu uso proibitivo. Esta seleção de atributos
deve ser bem documentada e justificada. Por seu lado, a limpeza dos dados consiste em tratar casos de
valores em falta e valores em branco, bem como casos de outliers. Esta fase é feita tendo em conta a
fase final de análise dos dados na qual ocorre a verificação da qualidade dos dados. Após a limpeza dos
dados ter sido executada, é feita a construção de dados, nesta fase são construídos registos
completamente novos ou são gerados outros atributos derivados. A fase de integração dos dados consiste
em integrar num só local, os dados provenientes de fontes diferentes, mas que se referem à mesma
entidade. Por vezes é também necessário realizar a fase de formatação de dados, que ocorre quando,
por alguma razão, é necessário formatar os dados existentes, tais como alterar o tamanho, ou remover
algum tipo de carácter, de forma a tornar os dados viáveis para uso.
Modelação
A fase de modelação apenas se pode iniciar após a fase de tratamento de dados. No entanto
pode-se voltar para a fase anterior de modo a realizar tarefas de tratamento de dados, com o intuito de
melhorar os modelos gerados. Aliás, deve-se salientar que este é o comportamento típico na maioria dos
projetos de data mining. Nesta fase são selecionados várias técnicas de data mining capazes de lidar
com o problema em questão. Estas técnicas são depois aplicadas sendo os seus parâmetros afinados
de forma a tentar encontrar valores ótimos para o problema. Esta fase é composta por quatro subfases:
a seleção das técnicas de modelação, a geração do design de teste, a criação dos modelos, e a avaliação
dos modelos. A seleção das técnicas de modelação consiste em selecionar entre as várias técnicas de
data mining existentes, as que permitem resolver o problema em questão. A geração do design de teste
consiste na definição do método usado para testar os modelos após a sua implementação. Após a
construção dos modelos, é necessário avaliar o seu desempenho e a sua qualidade, o que nem sempre
é trivial. Por exemplo, uma das métricas utilizadas para fazer a avaliação de modelos de classificação, é
o rácio de erros nas classificações. Neste caso, o que normalmente se faz, é definir um conjunto de
dados que serão usados para a modelação e outro conjunto de dados para o teste, de forma a determinar
a capacidade que um modelo tem de prever o passado, antes de o usar para prever o futuro. Assim
sendo, é importante que se defina o método de teste a utilizar nos modelos, antes da sua implementação.
De seguida é feito a criação dos modelos, através da execução das técnicas selecionadas na ferramenta
25
de data mining selecionada. Após a criação dos modelos é chegada a hora de os testar. O analista avalia
os modelos, tendo em atenção o seu conhecimento em relação ao negócio, os objetivos definidos para
o projeto, as condições de sucesso definidas na primeira fase e o designe de teste previamente definido.
No entanto, esta tarefa deve ser feita com o auxílio de especialistas no negócio, de forma a ajudarem a
interpretar os resultados obtidos. Aliás, é aconselhada a introdução destes especialistas na fase de
criação dos modelos, de forma a puderem ser identificados eventuais problemas de dados que não sejam
óbvios e que, de outra forma, passariam provavelmente despercebidos. Nesta fase também é feita uma
classificação comparativa dos vários modelos gerados, usando-se normalmente várias instâncias de uma
técnica ou de modelos usando técnicas diferentes. Este conjunto de modelos gerados é então
classificado, sendo gerado um ranking tendo em conta os critérios de avaliação definidos.
Avaliação
Nesta fase é feita uma análise mais cuidada do modelo escolhido e implementado, sendo
avaliado se ele cumpre todos os objetivos de negócio previamente definidos e se nenhum pormenor de
negócio foi descorado. No fim desta fase, o analista deverá decidir como usará os resultados obtidos. A
primeira tarefa desta fase é a avaliação dos resultados. É neste momento que os resultados são avaliados
em relação aos objetivos de negócio e se verifica se existe alguma consideração em termos de negócio
que torna o modelo não adequado. Esta tarefa não deve ser confundida com a fase de comparação e
avaliação que é realizada na fase de modelação, pois nessa fase os modelos são avaliados e comparados
entre si, tendo em conta métricas bem definidas, como a precisão dos modelos. Uma opção a considerar,
caso o orçamento e a limitação de tempo o permitam, é o teste do modelo em ambiente real. No final o
analista deverá documentar os resultados atingidos em termos de negócio, bem como uma justificação
sobre o cumprimento ou não dos objetivos definidos. A seguir a esta etapa é o momento de fazer uma
reavaliação, na qual é estudado se algum pormenor técnico ou tarefa realizada durante o processo foi
descorado.
Implementação
Depois da avaliação e da reavaliação do modelo, é chegada a hora de se definir as próximas
tarefas. É nesta altura que se decide se se deve terminar o projeto e avançar para a implementação da
solução ou efetuar novas iterações no modelo. O modelo final implementado não representa o final do
projeto, os resultados obtidos devem ser organizados e apresentados ao cliente, de forma a serem
compreendidos e corretamente utilizados. Esta fase tanto pode ser um processo muito simples, como
26
gerar um relatório para o cliente, como complexo, como implementar um processo de data mining capaz
de ser repetido por toda a empresa. Muitas vezes é o cliente a realizar esta tarefa. No entanto o analista
tem o dever de o instruir de quais tarefas a realizar, de modo a utilizar de forma correta os modelos. A
primeira tarefa a executar na fase de instalação, é a planificação da instalação. Nesta fase é planeado
todo o processo de instalação. Depois disso, é feito um planeamento da monitorização e manutenção
dos modelos criados. Esta fase é especialmente importante, caso os resultados sejam planeados para
usar no dia-a-dia da empresa. Após estas duas tarefas de planeamento, é realizado o relatório final.
Dependendo do que foi definido no plano de instalação, este relatório poderá apenas incluir um resumo
do projeto e algumas notas que não tenham sido documentadas durante o processo, ou então um
relatório final detalhado, com uma apresentação exaustiva dos resultados obtidos. A última tarefa
consiste em fazer uma revisão do projeto, onde é avaliada os pontos positivos e negativos do projeto,
bem como os pontos de melhoria a ter em atenção em projetos a realizar no futuro.
Fase 4 - Escrita do Relatório de Dissertação
O relatório irá ser desenvolvido durante todas as fases do projeto, e contará com a contribuição de
todos os artigos científicos desenvolvidos durante o mesmo.
27
6. CAPÍTULO VI – CONCLUSÕES
Após a realização deste projeto de dissertação podemos concluir a importância de aliar a área de
sistemas de informação com a saúde. O que reforça a necessidade de desenvolver um sistema de
informação integrado que monitorize continuamente cada paciente e recolha informação sobre a sua
qualidade de vida e estado de saúde. Relativamente a qualidade de vida é possível concluir que este é
um conceito multidimensionalmente amplo que geralmente inclui avaliações subjetivas de aspetos
positivos e negativos da vida. A parte mais árdua é medi-la, existem vários métodos e escalas mas tendo
em conta o âmbito do projeto foram selecionadas como ferramentas de medida os questionários QLQ-
C30 e o QLQ-H&N35. A temática de bussiness inteligence, descobrimento de conhecimento em base de
dados e data mining estão interligadas, sendo cada uma, uma parte mais especifica da anterior. Foram
analisadas as técnicas de data mining que tendo em conta os objetivos do projeto melhor se adequam
ao seu desenvolvimento e posteriormente selecionada a metodologia CRISP-DM para o desenvolvimento
de todo o processo de DM devido a sua familiarização.
Após a realização do estado da arte é possível verificar que embora existam muitos estudos sobre
o conceito de QDVRS e muitas utilizações de técnicas de Data Mining na saúde, a aplicação prática do
uso de Data Mining e Sistemas de informação na área do aumento da qualidade de vida são ainda muito
escassos.
28
REFERÊNCIAS
Bellazzi, R., & Zupan, B. (2008). Predictive data mining in clinical medicine: Current issues. International
journal of medical informatics, 81-97.
Bowling, A. (1995). Health-Related Quality of Life: A Discussion of the Concept, its use and Measurement.
Open University Press, 1-19.
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., & Shearer, C. (2000). Crisp-dm 1.0. The
CRISP-DM consortium.
Cody, W., Kreulen, J., Krishna, V., & Spangler, W. (2002). The integration of business intelligence and
knowledge management. IBM Systems Journal , 697–713.
Cortes, C. V. (1995). Support vector networks. Machine Learning, 273–297.
Dhar, V. (2013). Data Science and Prediction . Communications of the ACM VOL.56 NO.12, 64-73.
Fayers, P., & Bottomley, A. (2002). Quality of life research within the EORTC - the EORTC QLQ-C30.
European Journal of Cancer , S125–S133.
Gomathi, S., & Narayani, V. (2015). APPLICATIONS OF BIG DATA ANALYTICS AND DATA MINING IN
HEALTH CARE SECTOR. International Journal of Science, Technology & Management, 2394-
1537.
Graham, A., & S, P. (1990). A Diagnostic Expert System for Colonic Lesions. American Journal of Clinical
Pathology, S15-S18.
Heutte, N., Plisson, L., Lange, M., Prevost, V., & Babin, E. (2014). Quality of Life tools in head and neck.
European Annals of Otorhinolaryngology, Head and Neck diseases, 131, 33-47.
Koller, M., Aaronson, N., Blazeby, J., Bottomley, A., Dewolf, L., Fayers, P., . . . West, K. (2007).
Translation procedures for standardised quality of life questionnaires: The European Organisation
for Research and Treatment of Cancer (EORTC) approach. European Journal Of Cancer, 43,
1810-1820.
Kononenko, L. (1993). Inductive and bayesian learning in medical diagnosis. Applied Artificial Intelligence,
317-337.
Langley, P., & Sage, S. (1994). Induction of selective bayesian classifiers. DTIC Document.: Technical
report.
Laurent, A. (2004). Understanding Open Source and Free Software Licensing. Sebastopol: O’Reilly Media.
Microsoft. (2 de 03 de 2017). Microsoft Band 2. Obtido de Microsoft:
https://www.microsoft.com/microsoft-band/en-us
29
Nemati, R., & Barko, D. (2001). Issues in organizational data mining: A survey of current practices.
Journal of Data Warehousing, 25–36.
Nielsen, F. (2015). Data Mining with Python (Working draft).
Pinto, C., & Ribeiro, J. (2000). A qualidade de vida de jovens/adultos submetidos a transplante renal na
infância. Revista Portuguesa de Saúde Pública VOL.18.
Pinto, C., & Ribeiro, J. (2006). A qualidade de vida dos sobreviventes de cancro. Revista Portuguesa de
Saúde Pública VOL.24.
Pires, M. (2009). Factores de risco da doença coronária e qualidade de vida. Estudo exploratório no
concelho de Odivelas. Dissertação de Mestrado em Comunicação em Saúde, Universidade
Aberta.
Pontil, M., & Verri, A. (1998). Properties of support vector machines. Neural Computation, 955–974.
Prodanov, C., & Freitas, E. (2013). Metodologia do Trabalho Científico: Métodos e Técnicas da Pesquisa
e do Trabalho Acadêmico. Feevale.
Raghupathi, W., & Raghupathi, V. (2014). Big data analytics in healthcare: promise and. Health
Information Science and Systems, 2-3.
Sampaio, A. (2007). Benefícios da caminhada na qualidade de vida dos adultos. Dissertação: Faculdade
de Desporto da Universidade do Porto.
Santos, M., & Ramos, I. (2006). Business Intelligence: Tecnologias da Informática na Gestão de
Conhecimento. Lisboa: FCA - Editora de Informática.
Santos, M., & Ramos, I. (2009). Business intelligence : tecnologias da informação na gestão de
conhecimento 2ª ed. Lisboa: FCA - Editora de Informática.
Seidl, E., & Zannon, C. (2004). Qualidade de vida e saúde: aspectos conceituais e metodológicos. .
Caderno de Saúde Pública, 580-588.
Sheppard, K. (2014). Introduction to Python for Econometrics, Statistics and Data Analysis. University of
Oxford.
Shmueli, G., & Koppius, O. (2011). PREDICTIVE ANALYTICS IN INFORMATION SYSTEMS RESEARCH.
MIS Quarterly Vol. 35 No. 3, (pp. 553-572).
Shortliffe, E. H., & Barnett, G. O. (2001). Medical data: Their acquisition, storage and use. Medical
informatics computer applications in health care and biomedicine, 41-75.
Silva, A. (2007). MODELOS DE INTELIGÊNCIA ARTIFICIAL NA ANÁLISE DA MONITORIZAÇÃO DE
EVENTOS CLÍNICOS ADVERSOS, DISFUNÇÃO/FALÊNCIA DE ÓRGÃOS E PROGNÓSTICO DO
DOENTE CRÍTICO. Porto: Universidade do Porto .
30
Silva, I. (2003). Qualidade de vida e variáveis psicológicas associadas a sequelas de diabetes e sua
evolução ao longo do tempo. Dissertação de Doutoramento, Faculdade de Psicologia e de
Ciências da Educação da Universidade do Porto.
Silva, I., & Branco, J. (2009). ncapacidade nas Doenças Reumáticas e as suas repercussões económicas
e laborais. Conferencia, saúde e Produtividade.
Simon, J. (2003). R For the Political Methodologist. The Political Methodologist», 20–22.
Smola, A., & Vishwanathan, S. (2008). INTRODUCTION TO MACHINE LEARNING. Reino Unido: Press
Syndicate of the University of Cambridge.
Turban, E., Sharda, R., Aronson, J., & King, D. (2008). Turban, E., Sharda, R., Aronson, J., and King, D.
1nd edition: Pearson Prentice Hall.
Turban, E., Sharda, R., Delen, D., & King, D. (2011). Business Intelligence: a Managerial Approach.
Pearson Prentice Hall. 2nd edition: Pearson Prentice Hall.
Urbano, J., Nogueira, P., Rocha, A., & Cardoso, H. (2016). Analysis of Data Science Tools for Sensor-
Based Assessment of Quality of Life in Health Care. Porto: Artificial Intelligence and Computer
Science Lab (LIACC).
Vercellis, C. (2009). Business Intelligence: Data Mining and Optimization for Decision Making. Italy: Wiley.
Zhao, y. (2013). R and Data Mining: Examples and Case Studies. Elsevier.