descoberta de padrÕes para a identificaÇÃo de beneficiÁrios com indicativos a infarto agudo do...
Post on 29-Jul-2015
53 Views
Preview:
TRANSCRIPT
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
PÓS-GRADUAÇÃO EM BANCO DE DADOS
ADRIANO OLIVEIRA CABRAL
FERNANDO JESUS ROCHA
DESCOBERTA DE PADRÕES PARA A IDENTIFICAÇÃO DE BENEFICIÁRIOS
COM INDICATIVOS A INFARTO AGUDO DO MIOCÁRDIO
CURITIBA
2012
ADRIANO OLIVEIRA CABRAL
FERNANDO JESUS ROCHA
DESCOBERTA DE PADRÕES PARA A IDENTIFICAÇÃO DE BENEFICIÁRIOS
COM INDICATIVOS A INFARTO AGUDO DO MIOCÁRDIO
Trabalho de Conclusão de Curso apresentado ao Programa de Pós-Graduação em Banco de Dados da Pontifícia Universidade Católica do Paraná, como requisito parcial à obtenção do título de especialista em Banco de Dados. Orientador: Professor MSc. Marcelo Rosano Dallagassa
CURITIBA
2012
ADRIANO OLIVEIRA CABRAL
FERNANDO JESUS ROCHA
DESCOBERTA DE PADRÕES PARA A IDENTIFICAÇÃO DE BENEFICIÁRIOS
COM INDICATIVOS A INFARTO AGUDO DO MIOCÁRDIO
Trabalho de Conclusão de Curso apresentado ao Programa de Pós-Graduação em
Banco de Dados da Pontifícia Universidade Católica do Paraná, como requisito
parcial à obtenção do título de especialista em Banco de Dados.
COMISSÃO EXAMINADORA
_____________________________________
Prof. MSc. Marcelo Rosano Dallagassa
Pontifícia Universidade Católica do Paraná
_____________________________________
Prof. Dra. Raquel Kolitski Stasiu
Pontifícia Universidade Católica do Paraná
_____________________________________
Prof. MSc. Márcio Fuckner
Pontifícia Universidade Católica do Paraná
Curitiba, ____ de ________ de 2012.
Eu, Adriano, dedico este trabalho aos
meus queridos pais, sem vosso apoio eu
jamais chegaria até aqui.
Eu, Fernando, dedico este trabalho à
minha esposa Adriana e aos meus pais,
que sempre acreditaram e mim.
AGRADECIMENTOS
Ao Professor MSc. Marcelo Rosano Dallagassa, nosso sincero e grandioso
agradecimento pela extraordinária orientação.
À Professora Dra. Raquel Kolitski e ao Professor MSc. Marcio Fucker, nosso
muito obrigado pelas críticas construtivas.
"Se, a princípio, a ideia não é absurda,
então não há esperança para ela”.
Albert Einstein
RESUMO
De acordo com a Sociedade Brasileira de Cardiologia, o Infarto Agudo do Miocárdio é a principal causa isolada de mortes no Brasil, sendo responsável por mais de 60 mil mortes por ano. Doenças cardiovasculares, como o IAM, são classificadas como doenças crônicas não transmissíveis e podem ser prevenidas, evitando os altos custos do tratamento. O objetivo deste trabalho foi utilizar uma metodologia para identificar no Plano Celos Saúde da Fundação Celesc de Seguridade Social – CELOS, os beneficiários com forte indicativo a sofrerem Infarto Agudo do Miocárdio, encaminhar esses pacientes para programas de promoção à saúde e consequentemente prover qualidade de vida e diminuir os custos assistenciais do plano. A identificação dos beneficiários foi feita utilizando uma metodologia proposta por Dallagassa (2009), baseada no processo de descoberta de conhecimento em base de dados, proposto por Fayyad et al (1996), para a classificação dos beneficiários em “com indicativo” ou “sem indicativo” ao IAM, baseando-se nas informações sobre os procedimentos médicos realizados pertinentes à doença. A metodologia utilizada seguiu os seguintes passos: Seleção das variáveis relevantes para o estudo, contando com a ajuda de médico especialista em cardiologia, para a criação do quadro de variáveis, buscando os dados dos sistemas operacionais da Celos e criando uma base de dados para teste, exclusivo para o desenvolvimento deste trabalho. O próximo passo, foi a realização do pré-processamento, onde foram criados os registros base para o algoritmo de mineração. Para o trabalho, criamos dois grupos de estudo: o Grupo 1: “Infartados”, com 271 beneficiários que tiveram IAM e o grupo 2: “Não Infartados”, com 11.637 beneficiários. Em seguida, foi realizada a mineração de dados, utilizando o algoritmo de árvore de decisão C4.5, que fez a classificação para a descoberta de novas regras. Em seguida, os dados foram analisados e validados por especialista da área médica em cardiologia.
Palavras-chave: Banco de dados, KDD, Data Mining, Infarto Agudo do Miocárdio.
ABSTRACT
According to the Brazilian Society of Cardiology, Acute Myocardial Infarction is the leading cause of death in Brazil, accounting for more than 60 000 deaths per year. Cardiovascular diseases are classified as non-transmissible and chronic diseases, and can be prevented, avoiding the high treatment costs. The goal of this study was to use a methodology to identify among the beneficiaries of health plan Fundação Celos Celesc Seguridade Social - CELOS, those who have a strong indication to suffer acute myocardial infarction, take them for health promotion programs and thus provide life quality and reduce the health plan costs. The beneficiaries identification was perfomed using a methodology proposed by Dallagassa (2009), based on the knowledge discovery in databases process, proposed by Fayyad et al (1996), for the classification of the beneficiaries between "with indicative" or "without indicative " to Acute Myocardial Infarction, based on information about the relevant medical procedures for this disease. The methodology involved the following steps: Selection of the relevant variables to the study helped by an cardiology specialist, fetching data from CELOS' systems and creating a database exclusively for testing the development of this work. The next step was to perform preprocessing, where the records were created to be used by the mining algorithm. For this work, we created two groups: Group 1: "Infarcted", with 271 beneficiaries who had Acute Myocardial Infarction and group 2: "Not infarcted", with 11,637 beneficiaries. Next, we performed data mining, using the decision tree algorithm C4.5, which discovered new rules. Then the data were analyzed and validated by a cardiology expert.
Key-words: Databases, KDD, Data Mining, Acute Myocardial Infarction.
LISTA DE FIGURAS
Figura 1 – Visão geral dos passos que compõem o KDD ......................................... 25
Figura 2 – Exemplo de árvore de decisão para determinar a espécie, ou classe, da
flor íris com base nos atributos comprimento da pétala, comprimento da sétala,
largura da pétala, largura da sétala. .......................................................................... 27
Figura 3 – Metodologia proposta por Dallagassa (2009). .......................................... 32
Figura 4 – Etapas do estudo. .................................................................................... 34
Figura 5 – Árvore de decisão gerada pelo algorítmo. ................................................ 43
LISTA DE TABELAS
Tabela 1 – Receita de contraprestações e despesa assistencial das operadoras
médico-hospitalares. ................................................................................................. 19
Tabela 2 – Comprometimento da receita de planos de saúde em 2010 ................... 19
Tabela 3 – Taxa de utilização do plano de saúde hospitalar da Fundação CELESC
de Seguridade Social. ............................................................................................... 21
Tabela 4 – Receita de contraprestações e despesa assistencial da CELOS em 2010
.................................................................................................................................. 21
Tabela 5 – Custos para o tratamento do infarto agudo do miocárdio entre o ano 2001
e 2010 no plano CELOS. .......................................................................................... 22
Tabela 6: Resumo dos resultados obtidos por KOBUS (2006) ................................. 30
Tabela 7 – Somatório dos exames e internações para os grupos de Infartados e não-
infartados................................................................................................................... 40
Tabela 8 – Estrutura do registro utilizado para a criação do objeto de dados para
mineração.................................................................................................................. 41
Tabela 9 – Matriz de confusão. ................................................................................. 42
Tabela 10 – Conjunto de regras encontradas na árvore de decisão. ........................ 45
LISTA DE GRÁFICOS
Gráfico 1 - Beneficiários de planos privados de saúde por cobertura assistencial do
plano (Brasil - 2000-2010) ......................................................................................... 18
Gráfico 2 - Distribuição da população, entre infartados e não infartados. ................. 38
Gráfico 3 - Distribuição da população, entre infartados e não infartados. ................. 39
Gráfico 4: Distribuição da população de infartados e não infartados, de acordo com a
idade. ........................................................................................................................ 39
LISTA DE ABREVIATURAS E SIGLAS
IAM Infarto Agudo do Miocárdio
KDD Knowledge Discovery in Databases – Descoberta de Conhecimento
em Bases de dados
OMS Organização Mundial de Saúde
SBC Sociedade Brasileira de Cardiologia
WEKA Waikato Environment for Knowledge Analysis
SUMÁRIO
1 INTRODUÇÃO ...................................................................................................... 14
1.1 OBJETIVOS ........................................................................................................ 15
1.1.1 Objetivo Geral ............................................................................................... 15
1.1.2 Objetivos Específicos................................................................................... 15
1.2 QUESTÕES NORTEADORAS ........................................................................... 15
1.3 ESTRUTURA DO TRABALHO ........................................................................... 15
2 FUNDAMENTAÇÃO TEÓRICA ............................................................................ 17
2.1 SAÚDE SUPLEMENTAR .................................................................................... 17
2.1.1 Crise da Saúde Suplementar ....................................................................... 18
2.1.2 O Cenário da Fundação CELESC de Seguridade Social – CELOS ........... 20
2.1.3 Infarto Agudo do Miocárdio ......................................................................... 22
2.1.4 Futuro ............................................................................................................ 23
2.2 INTELIGÊNCIA ARTIFICIAL ............................................................................... 24
2.2.1 Descoberta de Conhecimento em Bases de Dados................................... 24
2.2.2 Aprendizagem de Máquina e a Tarefa de Classificação ............................ 25
2.2.2.1 Aprendizagem por Árvore de Decisão .......................................................... 26
2.3 TRABALHOS RELACIONADOS ......................................................................... 29
2.3.1 Aplicação da Descoberta de Conhecimento em Bases de Dados para
Identificação de Usuários com Doenças Cardiovaculares Elegíveis para
Programas de Gerenciamento de Caso ................................................................ 29
2.3.2 Concepção de uma Metodologia Para Identificação de Beneficiários com
Indicativos de Diabetes Mellitus Tipo 2 ................................................................. 31
3 METODOLOGIA ................................................................................................... 32
3.1 ETAPAS DO ESTUDO........................................................................................ 32
3.1.1 Identificação das variáveis – análise inicial ............................................... 34
3.1.2 Pré-processamento ...................................................................................... 35
3.1.3 Mineração de Dados ..................................................................................... 35
3.1.4 Avaliação e Interpretação dos Resultados ................................................. 36
3.1.5 Validação das Regras ................................................................................... 36
3.1.6 Aspectos Éticos ............................................................................................ 37
4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS .................................... 37
4.1 ANÁLISE DAS VARIÁVEIS ................................................................................. 37
4.2 PRÉ-PROCESSAMENTO ................................................................................... 40
4.3 MINERAÇÃO DE DADOS ................................................................................... 42
4.4 VALIDAÇÃO DAS REGRAS ............................................................................... 48
4.5 AVALIAÇÃO DOS ESPECIALISTAS .................................................................. 48
5 CONSIDERAÇÕES FINAIS .................................................................................. 54
5.1 TRABALHOS FUTUROS .................................................................................... 55
REFERÊNCIAS ......................................................................................................... 56
14
1 INTRODUÇÃO
Data Mining, considerada a principal etapa do KDD (sigla em inglês para
Knowledge Discovery in Databases), é um ramo da ciência da computação que visa
à descoberta de padrões e relacionamentos interessantes e úteis em grandes
volumes de dados. Data Mining utiliza ferramentas das áreas da estatística e
inteligência artificial (tais como redes neurais e aprendizado de máquina) juntamente
com a gestão de bancos de dados. Suas principais áreas de aplicação são: negócios
(seguros, bancários, comércio), pesquisas científicas (astronomia, medicina) e
segurança nacional (detecção de criminosos e terroristas) (Aurélio et al, 1999).
Essa técnica foi explorada por Dallagassa (2009) para a concepção de uma
metodologia para a identificação de beneficiários de planos de saúde com
indicativos de Diabetes Mellitus tipo 2.
Essa metologia será utilizada para a análise dos dados do plano de saúde da
empresa CELOS – Fundação Celesc de Seguridade Social, a fim de identificar os
beneficiários com alta probabilidade de terem um infarto agudo do miocárdio.
A motivação para essa pesquisa é prover uma melhor qualidade de vida para
esses beneficiários, procurando investir em programas de prevenção,
consequentemente, diminuindo os custos do plano com internações devido a infarto
agudo do miocárdio, que hoje é uma das internações com maior custo agregado. Ou
seja, quanto antes os problemas forem identificados, mais cedo os beneficiários
podem ser tratados e com um custo menor.
Esta análise se baseará em dados históricos dos beneficiários, identificando
aqueles que já tiveram um infarto agudo do miocárdio. E como resultado esperado,
serão encontrados padrões, que serão aplicado aos demais beneficiários do plano,
na tentativa de identificar os demais beneficiários com indicativo de terem infarto
agudo do miocárdio.
15
1.1 OBJETIVOS
1.1.1 Objetivo Geral
Utilizar uma metodologia para identificar no Plano Celos Saúde da Fundação
Celesc de Seguridade Social – CELOS, regras que possibilitem classificar
beneficiários com propensão a sofrerem Infarto Agudo do Miocárdio.
1.1.2 Objetivos Específicos
a) Identificar as variáveis relevantes para o processo de descoberta de
conhecimento referentes a infarto agudo do miocárdio;
b) Aplicar uma metodologia para a seleção de regras para a identificação de
beneficiários com indicativos a uma doença crônica não transmissível;
c) Validar as regras descobertas com especialistas em cardiologia.
1.2 QUESTÕES NORTEADORAS
É possível encontrar padrões que identifiquem beneficiários de planos de
saúde com propensão ao Infarto Agudo do Miocárdio?
Qual a técnica que permitirá encontrar esses padrões?
1.3 ESTRUTURA DO TRABALHO
No capítulo 2 é apresentado a fundamentação teórica para o trabalho,
abordando aspectos da saúde suplementar, a crise atual e as perspectivas futuras
16
para o setor. Também são abordados os tópicos necessários sobre Infarto Agudo do
Miocárdio e técnicas de Inteligência Artificial e bases de dados para o entendimento
da metodologia utilizada.
No capítulo 3 é apresentada a metodologia utilizada para o desenvolvimento
deste trabalho.
No capítulo 4 são apresentados os resultados encontrados com a aplicação
da metodologia e dos experimentos realizados.
No capítulo 5 são apresentas as considerações finais acerca dos objetivos e
resultados encontrados no trabalho e também os trabalhos futuros.
17
2 FUNDAMENTAÇÃO TEÓRICA
Por se tratar de uma pesquisa no ramo da informática aplicada à saúde,
conceitos de ambas as áreas são necessários.
No que concerne a saúde, é necessário entender o atual cenário da saúde
suplementar no Brasil, o que é e qual sua missão. Também relacionado à saúde,
serão apresentados tópicos relacionados ao “Infarto Agudo do Miocárdio”, o que é,
as causas, prevenção e os impactos dessa doença na saúde suplementar no Brasil.
No que concerne à informática, serão apresentados os conceitos de Business
Inteligence, Data Mining e KDD (Knowledge Discovery in Databases), explicando
também a importância desses conceitos para se alcançar os objetivos desse
trabalho.
2.1 SAÚDE SUPLEMENTAR
A Lei 9.656/1998 define Plano Privado de Assistência à Saúde como sendo
pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial,
cooperativa, ou entidade de autogestão, que opere produto, serviço ou contrato de
prestação continuada de serviços ou cobertura de custos assistenciais a preço pré
ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem
limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por
profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de
rede credenciada, contratada ou referenciada, visando a assistência médica,
hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da
operadora contratada, mediante reembolso ou pagamento direto ao prestador, por
conta e ordem do consumidor (BRASIL, ANS, 2010).
18
2.1.1 Crise da Saúde Suplementar
No Brasil, mais de 45,7 milhões de pessoas são beneficiários de planos de
assistência médica, correspondendo a cerca de 24,1% da população, sendo 18,7%
beneficiários de planos de saúde privados e 5,4% beneficiários de planos de saúde
públicos (BRASIL, ANS, 2010).
Observando o crescimento da adesão aos planos privados de saúde,
apresentado no gráfico 1, observamos um aumento de mais de 12 milhões de
beneficiários entre dezembro do ano 2000 até março de 2010, e também que a taxa
de adesão tem aumentado em cerca de 2 milhões de beneficiários por ano.
Gráfico 1 - Beneficiários de planos privados de saúde por cobertura assistencial do plano (Brasil - 2000-2010). Fonte: BRASIL, ANS, 2010 (adaptação do autor).
O lucro apresentado na tabela 1 considera apenas o lucro assistencial,
portanto não estão sendo consideradas as despesas administrativas que uma
empresa possui. Em 2009, as despesas administrativas das operadoras médico-
hospitalares de planos privados de saúde foram maiores do que 10,2 bilhões de
reais. (BRASIL, ANS, 2010).
30,71 31,13 31,11 31,77 33,67
35,11 36,93
38,78 40,87
42,86 43,20
0,0
5,0
10,0
15,0
20,0
25,0
30,0
35,0
40,0
45,0
50,0
dez/00 dez/01 dez/02 dez/03 dez/04 dez/05 dez/06 dez/07 dez/08 dez/09 mar/10
ben
efi
ciá
rio
s (
em
mil
hõ
es
)
19
Tabela 1 – Receita de contraprestações e despesa assistencial das operadoras médico-hospitalares (Brasil – 2003-2010). Fonte: BRASIL, ANS, 2010 (adaptação do autor).
Ano Receita (R$) Despesa
assistencial (R$)
Lucro
assistencial (R$)
2003 28.015.808.675 22.784.778.036 5.231.030.639
2004 31.622.102.461 25.756.585.317 5.865.517.144
2005 36.396.870.458 29.629.270.789 6.767.599.669
2006 41.157.766.429 32.812.629.440 8.345.136.989
2007 50.776.024.165 40.898.463.172 9.877.560.993
2008 59.164.291.002 47.538.648.584 11.625.642.418
2009 63.970.270.882 53.114.223.516 10.856.047.366
2010 (1º trimestre) 15.667.394.023 12.286.632.624 3.380.761.399
Estudos apresentados pela Federação Nacional de Saúde Suplementar
revelam que as operadoras de plano de saúde comprometem, em média, 98,2% da
receita de mensalidades com despesas totais, sendo que as despesas assistenciais
representam 79,8% desse total, conforme apresentado na tabela 2. (BRASIL, IESS,
2011).
Tabela 2 – Comprometimento da receita de planos de saúde em 2010. Fonte: BRASIL, IESS, 2011 (adaptação do autor).
2010 %
Receita de Mensalidades 100,0
Despesas Assistenciais 79,8
Internações 39,7
Exames 22,2
Consultas 19,7
Terapias 4,4
Outras despesas Médicas Hospitalares, Ambulatoriais e Odontológicas 14,0
Despesas Administrativas 14,9
Despesa com Pessoal 38,2
Tributos e outras Despesas Administrativas 61,8
Despesas de Comercialização 3,5
Resultado Operacional 1,8
20
A dificuldade financeira das operadoras de plano de saúde deve-se a um
regime em que as receitas são fixas é pré-determinadas, enquanto que os gastos
assistenciais são variáveis e tendem a aumentar à medida que o ocorre o
envelhecimento populacional, a incorporação de novas tecnologias na execução dos
procedimentos e o aumento na utilização dos serviços. (MIRANDA, 2003).
Diante desse cenário, observa-se a necessidade de um modelo de gestão
voltada à prevenção e promoção à saúde, visando melhorar a qualidade de vida dos
beneficiários e ao mesmo tempo diminuir os custos assistências.
2.1.2 O Cenário da Fundação CELESC de Seguridade Social – CELOS
A Fundação Celesc de Seguridade Social (CELOS) é uma operadora de
plano privado de assistência à saúde de autogestão localizada em Santa Catarina e
que beneficia funcionários, e seus assistidos, e os vinculados das empresas
Centrais Elétricas de Santa Catarina S.A. – CELESC e da própria CELOS,
fornecendo prestação continuada de serviços ambulatoriais, hospitalares com
obstetrícia e odontológicos (CELOS, 2011).
O plano de saúde odontológico não é objeto de estudo desse trabalho,
portanto, seus dados não contribuíram para a justificativa do mesmo.
Conforme apresentado na tabela 3, o plano de saúde hospitalar da CELOS
possuía, em 2010, 19547 beneficiários. Neste mesmo ano, 17847 beneficiários
utilizaram o plano pelo menos uma vez, alcançando uma taxa de utilização de
91,30%.O comportamento humano é norteado por objetivos, ou seja, motivado por
algum desejo em atingir determinada meta.
21
Tabela 3 – Taxa de utilização do plano de saúde hospitalar da Fundação CELESC de Seguridade Social.
Ano Beneficiários Beneficiários ativos Taxa de utilização
2010 19547 17847 91,30%
2009 19950 18182 91,14%
2008 20378 18323 89,92%
2007 20718 18449 89,05%
2006 21219 18554 87,44%
2005 20708 18328 88,51%
2004 21169 18422 87,02%
2003 21307 18626 87,42%
2002 21714 19223 88,53%
2001 22083 19564 88,59%
A tabela 4 mostra que, em 2010, as despesas assistenciais do plano CELOS
corresponderam a 88,84% da receita bruta. Nesse cálculo não estão contabilizadas
despesas administrativas e outras despesas gerais.
Tabela 4 – Receita de contraprestações e despesa assistencial da CELOS em 2010. Fonte: CELOS, 2010 (adaptação do autor).
Ano Receita (R$) Despesa
assistencial (R$)
Lucro
assistencial (R$)
2010 43.502.964,81 38.649.572,43 4.853.392,38
A tabela 5 apresenta os custos do plano CELOS para o tratamento do infarto
agudo do miocárdio entre o ano de 2001 e o ano de 2010. Observa-se que, mesmo
com a redução da ocorrência de IAM, os custos para o tratamento aumentaram.
22
Tabela 5 – Custos para o tratamento do infarto agudo do miocárdio entre o ano 2001 e 2010 no plano CELOS.
Ano Quantidade Custo Total (R$) Custo Médio (R$)
2001 21 372.520,95 17.739,09
2002 14 267.957,10 19.139,79
2003 23 557.858,55 24.254,72
2004 17 474.220,62 27.895,33
2005 26 959.191,52 36.891,98
2006 17 550.129,75 32.360,57
2007 22 1.006.560,30 45.752,74
2008 17 639.193,34 37.599,61
2009 14 631.592,28 45.113,73
2010 16 602.537,25 37.658,58
2.1.3 Infarto Agudo do Miocárdio
De acordo com Halhuber et al (1981, p. 4),
Durante o infarto ocorre uma súbita e localizada diminuição da irrigação do músculo cardíaco. Em consequência há uma carência acentuada de oxigênio nas células do músculo cardíaco, a ponto de não poderem mais sobreviver. Este desbalanceamento entre a necessidade de oxigênio dos musculo cardíaco e o suprimento através do fluxo sanguíneo para as respectivas células é causado, em 95% dos casos, por alterações na parede das artérias coronárias. (Halhuber et al, 1981, p. 4).
A causa para a carência de oxigênio das células do músculo cardíaco é,
segundo Kamel e Kamel (1996, p.12):
[...] Deve-se quase que exclusivamente, mais de 95% dos casos, à deposição de colesterol e de outras gorduras no sangue (triglicerídios e fosfolipídios) nas artérias, constituindo o processo patológico da arteriosclerose. O enfarte pode ser compreendido de uma maneira simplista como sendo, exclusivamente, de origem arteriosclerótica (formação de placas gordurosas, ateromas) nas artérias coronarianas.
Outros fatores, tais como: ausência de exercícios físicos, má alimentação
stress diário e tensões emocionais, aliados á deposição do colesterol e outras
23
gorduras no sangue, também contribuem para acentuar o risco de ocorrer o infarto
agudo do miocárdio (Kamel e Kamel, 1996, p.12; Olszewer, 1992, p. 42).
Segundo dados Sociedade Brasileira de Cardiologia (2004), o infarto agudo
do miocárdio é responsável por 60.080 óbitos no Brasil, sendo assim considerada a
principal causa isolada de morte no país. Não se sabe exatamente qual o número de
infartos anualmente, estima-se entre 300 mil e 400 mil, levando à taxa de um óbito
para cada 5 a 7 infartos.
A ocorrência do infarto agudo do miocárdio em um paciente pode ser evitada
se medidas profiláticas forem tomadas. As operadoras de plano de saúde, visando a
melhoria da qualidade de vida de seus beneficiários, devem identificar aqueles com
indicativos a desenvolverem a doença e encaminhá-los para programas de
prevenção à saúde. É esperado que essas medidas também contribuam para a
diminuição dos custos assistenciais.
2.1.4 Futuro
Segundo Miranda (2003), o modelo atual de assistência à saúde, ou seja,
baseado em um paradigma assistencialista focado na doença, está equivocado,
pois, de acordo com dados da OMS, apenas 10% dos fatores que fazem com que
um individuo ultrapasse os 65 anos de idade estão ligado à assistência médica,
estilo de vida representa 53%, meio ambiente 20% e herança genética 17%.
Esses dados evidenciam a necessidade de um novo paradigma preventivo
em substituição do atual modelo reativo. Para Kobus (2006), o novo modelo de
gestão deve propiciar prestação de serviços de qualidade, focando na prevenção de
doenças e promoção à saúde, e sustentabilidade financeira.
De acordo com Dallagassa (2009), as informações clínicas dos beneficiários,
que permitiriam a identificação daqueles com riscos a desenvolverem determinadas
doenças, muitas vezes não estão contidas nas bases de dados das operadoras de
saúde, dificultando a identificação dos mesmos para ingresso em programas de
promoção à saúde.
Nesse contexto, o uso de técnicas da Tecnologia da Informação e da Ciência
da Computação, como Inteligência Artificial, se tornam primordiais em um no modelo
24
de gestão orientado à prevenção e promoção à saúde contribuindo para o processo
de tomada de decisão.
2.2 INTELIGÊNCIA ARTIFICIAL
Segundo Turban (1995), “Inteligência Artificial é uma subdivisão da ciência da
computação, voltada à criação de software e hardware que objetiva a produção de
conhecimentos, tal como os produzidos pelos seres humanos”.
Portanto, Inteligência artificial pode ser entendida como agentes
computacionais automatizados para realizar atividades humanas nas quais
processos de tomada de decisão e aprendizagem são necessários.
De acordo Dallagassa (2009), a utilização de técnicas de inteligência artificial,
como o KDD (Knowledge Discovery in Databases), em banco de dados e sistemas
especialistas se fazem necessários para a análise das informações das bases de
dados das operadoras de plano de saúde, não só pelo grande volume dados, mas
também pela complexidade de se interpretar e produzir conhecimento.
2.2.1 Descoberta de Conhecimento em Bases de Dados
Fayyad et al (1996) definiu o processo de Descoberta de Conhecimento em
Bases de Dados como: “... o processo não trivial de identificação de padrões válidos,
novos, potencialmente úteis e compreensíveis em dados.”
Ser um processo implica em executar um conjunto de etapas, que no KDD
compreende: analise inicial, seleção, limpeza e pré-processamento, transformação,
mineração, interpretação dos padrões encontrados e utilização do conhecimento
(Fayyad et al, 1996):
1. Análise inicial: é um processo de conhecimento do domínio de trabalho e
definição das metas a serem alcançadas pelo processo de KDD;
2. Seleção dos dados: definição de qual será o domínio dos dados para uso
no processo;
25
3. Limpeza e pré-processamento dos dados: envolve a remoção dos outliers
(dados atípicos), registros repetidos e definição de estratégias para lidar
com dados faltantes;
4. Transformação dos dados: visa encontrar caraterísticas importantes para
representar os dados de acordo com o objetivo do processo e reduzir o
número de variáveis;
5. Mineração dos dados: é considerada a principal etapa do KDD, refere-se à
aplicação de algoritmos específicos para a extração de padrões em bases
de dados, transformando dados em informação;
6. Interpretação dos padrões encontrados;
7. Utilização do conhecimento gerado.
Figura 1 – Visão geral dos passos que compõem o KDD. Fonte: Fayyad et al, 1996.
2.2.2 Aprendizagem de Máquina e a Tarefa de Classificação
Aprendizagem de máquina pode ser definida como o estudo de métodos para
o aprendizado de programas de computadores, e suas tarefas são dividas em
26
supervisionados e não supervisionadas. A aprendizagem supervisionada faz uso de
um conjunto de dados de treinamento em que cada objeto possui uma classe
rotuladora. A partir desse modelo, o algoritmo deve ser capaz de inferir a classe de
novos objetos. (Dietterich, 2003).
Portanto, aprendizagem de máquina supervisionada por classificação consiste
em treinar o algoritmo a partir de objetos previamente classificados para que, então,
o algoritmo seja capaz de inferir a classe de novos objetos.
Por exemplo, suponha um conjunto de pacientes que sofreram infarto agudo
do miocárdio e outro conjunto que não sofreu. Os dados sobre consultas, exames
realizados, etc. definem o objeto de treinamento, ter sofrido infarto agudo do
miocárdio ou não, define a classe. O algoritmo é então treinado com esses dois
conjuntos e deve aprender como classificar novos objetos, além dos utilizados no
treinamento.
Há uma vasta quantidade de algoritmos para aprendizagem supervisionada
por classificação, entre elas: redes neurais, redes Bayesianas e árvores de decisão.
Dietterich (2003) classifica esse último como “... um dos mais versáteis, eficiente e
popular algoritmo de aprendizagem de máquina”. Este algoritmo foi o escolhido para
a realização desse trabalho.
2.2.2.1 Aprendizagem por Árvore de Decisão
Em computação, uma árvore é uma estrutura de dados composta por uma
raíz, ramos e ao fim dos ramos, folhas.
De acordo com Dietterich (2003), uma árvore de decisão é uma estrutura que
segue o mesmo conceito descrito acima, em que cada nó da árvore (ramo ou raíz) é
responsável por testar o valor de um atributo do objeto. Caso o resultado seja
verdadeiro, a árvore escolhe o ramo da esquerda para seguir, se for falso, segue o
da direita. Esse processo se repete até que se é alcançado uma folha da árvore. As
folhas não fazem tomadas de decisão, elas apenas atribuem o rótulo, ou classe, ao
objeto.
A próxima figura apresenta um exemplo de árvore de decisão que determina
a espécie, ou classe (Íris-setosa, íris-virgínica, íris-versicolor), da flor íris baseada
27
nos atributos largura da pétala, largura da sétala, comprimento da pétala e
comprimento da sétala. Neste exemplo, todos os atributos da flor compõem o objeto
de estudo.
Figura 2 – Exemplo de árvore de decisão para determinar a espécie, ou classe, da flor íris com base nos atributos comprimento da pétala, comprimento da sétala, largura da pétala, largura da sétala.
Essa árvore foi gerada com base em 150 registros de teste previamente
classificados para utilização no processo de aprendizagem supervisionada. O
algoritmo gerado toma as seguintes decisões:
1. Se a largura da pétala for menor ou igual a 0.6 cm, a flor íris será
classificada como íris-setosa.
2. Caso a largura da pétala for maior que 0,6 cm e menor ou igual a 1.7 cm,
então será necessário testar o comprimento da sétala. Senão, a flor íris
será classificada como íris-virgínica.
28
3. Caso o comprimento da sétala seja menor ou igual a 4.9 cm, então a flor
íris será classificada como íris-versicolor.
4. Caso o comprimento da sétala for maior que 4.9 cm e a largura da pétala
for menor ou igual a 1.5 cm, então a flor íris será classificada como íris-
virgínica. Senão, será classificada como íris-versicolor.
Como grandes vantagens dos algoritmos de aprendizagem por árvore de
decisão estão a facilidade com que humanos podem interpretar o resultado gerado
e, também, a fácil implementação do algoritmo nos sistemas que efetivamente farão
uso.
Para o teste do algoritmo gerado nesse trabalho, foi escolhido o método
validação cruzada por k-fold. Segundo Refaeilzadeh et al (2009), “Validação cruzada
é um método estatístico para avaliação e comparação de algoritmos de
aprendizagem através da divisão dos dados em dois segmentos: aprendizagem e
validação”. O método k-fold baseia-se na divisão do conjunto de dados em k grupos
mutuamente exclusivos, em seguida é realizada k iterações em que o equivalente a
k – 1 grupos farão parte do segmento de aprendizagem e o grupo restante será o
grupo de teste. A cada iteração, o grupo de teste deve ser diferente (Refaeilzadeh et
al, 2009).
Para a análise dos resultados gerados, são utilizadas as seguintes métricas:
acurácia, a quantidade de objetos de estudo classificados corretamente, e taxa de
erro, quantidade de registros classificados incorretamente (Dallagassa, 2009).
Portanto, quanto maior a acurácia e, consequentemente, menor a taxa de erro,
maior é a eficiência do algoritmo.
O algoritmo utilizado para a geração da árvore de decisão desse trabalho é o
J48, que é uma implementação em linguagem Java do algoritmo C4.5 proposto por
Quinlan (1993).
O C4.5 constrói a árvore de decisão de a partir de um conjunto dos dados de
teste previamente classificados. O processo se baseia na indução e posterior
refinamento da árvore de decisão, onde as regras com melhor aproveitamento após
o refinamento são utilizadas (Vianna, 2007).
29
2.3 TRABALHOS RELACIONADOS
Há atualmente na literatura uma série de trabalhos que fazem uso de técnicas de
KDD para a descoberta de padrões em bases de dados, inclusive voltados a temas
ligado a saúde. Entretanto, especificamente voltados para a identificação de padrões
para a descoberta de beneficiários com indicativos a Infarto Agudo do Miocárdio não
foram encontrados.
2.3.1 Aplicação da Descoberta de Conhecimento em Bases de Dados para
Identificação de Usuários com Doenças Cardiovaculares Elegíveis para
Programas de Gerenciamento de Caso
Kobus (2006) utilizou técnicas de KDD para a identificação de beneficiários
com indicativos a doenças cardiovasculares, incluindo o Infarto Agudo do Miocárdio,
elegíveis para programas de gerenciamento de caso. Kobus (2006) apresenta
resumidamente o resultado de sua pesquisa conforme o quadro a seguir.
30
Tabela 6: Resumo dos resultados obtidos por Kobus (2006). Fonte: Kobus (2006).
Usuários a serem indicados
para programas de
gerenciamento de casos
cardiovasculares
Variáveis administrativas Eventos alertas
Com mais de 40 anos, que
apresentarem em seu
histórico procedimentos
indicativos a diabetes
(Microalbuminúria,
Hemoglobina Glicosada,
Mapeamento de retina) e que
forem do sexo masculino.
Idade, códigos de
procedimentos dos usuários,
custo e complexidade dos
eventos.
Cateterismo cardíaco,
angioplastia de vaso
único, implante de
stent, cintilografia do
miocárdio, VR
cateterismo cardíaco,
VR revascularização
do miocárdio,
consultas de
emergência,
hemoglobina
glicosada,
mapeamento de
retina e
microalbuminúria.
É importante ressaltar que cada base de dados é única em termos estruturais,
tipos de informações relevantes para cada negócio, compromisso com a qualidade
dos dados armazenados, etc. Fatores como estes implicam em descobertas
diferentes em cada estudo e, consequentemente, em se tratando de KDD, regras
diferentes. Entretanto, conforme será apresentado a seguir nos resultados
encontrados, veremos que os eventos alertas descobertos por Kobus (2006), muito
se assemelham aos deste trabalho.
31
2.3.2 Concepção de uma Metodologia Para Identificação de Beneficiários com
Indicativos de Diabetes Mellitus Tipo 2
Dallagassa (2009), utilizou técnicas de KDD, também aplicados a base de
dados de uma operadora de plano de saúde, com o objetivo de propor uma
metodologia para a identificação de beneficiários com indicativo de Diabetes Mellitus
Tipo 2.
A metodologia proposta por Dallagassa (2009) se mostrou eficaz para a
descoberta de padrões para a identificação de beneficiários com indicativos a outras
doenças crônicas não transmissíveis, com o Infarto Agudo do Miocárdio, fato este
que é colocado à prova pela utilização dessa mesma metodologia nesse trabalho.
32
3 METODOLOGIA
Este trabalho irá utilizar a metodologia proposta por Dallagassa (2009) para
identificar na base de dados da CELOS beneficiários do plano de saúde
administrado pela empresa, com alta probabilidade de sofrerem infarto agudo do
miocárdio.
A seguir, a proposta metológica proposta por Dallagassa (2009):
Figura 3 – Metodologia proposta por Dallagassa (2009). Fonte: Dallagassa (2009).
3.1 ETAPAS DO ESTUDO
33
A Celos não dispõe de um ambiente Data Warehouse, então, foi necessário
criar uma base de dados oracle para estudo que iria receber os dados da base de
produção.
O primeiro passo do trabalho foi realizar o levantamento de todas as tabelas
necessárias distribuídas entre os sistemas em produção da CELOS, para compor a
base de dados de estudo. Este levantamento foi realizado em conjunto com os
analistas de sistemas da CELOS, que ao final do levantamento, disponibilizaram o
arquivo de exportação dos dados levantados, que posteriormente foram importados
pela base de dados de estudo.
Em seguida, foi feito a seleção das variáveis importantes para o estudo,
disponibilizados por especialista na área médica em cardiologia.
Os dois grandes grupos de estudo foram criados no passo seguinte:
Grupo 1: Beneficiários que se submeteram ao procedimento de
revascularização do miocárdio;
Grupo 2: Beneficiários que não se submeteram ao procedimento de
revascularização do miocárdio;
Pré-processamento, onde foi criado o arquivo com a estrutura baseada nas
variáveis selecionadas.
Mineração dos dados onde foi utilizado o algoritmo de árvore de decisão C4.5
para realizar a tarefa de classificação para a descoberta das regras.
E por fim, a análise e validação dos resultados obtidos.
34
Figura 4 – Etapas do estudo.
3.1.1 Identificação das variáveis – análise inicial
Para realizar o estudo, selecionamos dados de dois grupos distintos da base
de dados, tendo adotado a data de 31/12/2010 como data limite:
Grupo 1: Beneficiários que se submeteram ao procedimento de
“Revascularização do Miocárdio”;
Grupo 2: Beneficiários que não se submeteram ao procedimento de
“Revascularização do Miocárdio”.
Para a criação destes dois grupos, foi verificada a ocorrência do procedimento
“Revascularização do Miocárdio”, dentre as internações pelas quais os beneficiários
se submeteram. Para os beneficiários onde houve ocorrência do procedimento de
Revascularização do Miocárdio, o mesmo foi classificado no Grupo 1, e para os que
não tiveram ocorrência deste procedimento, foram classificados no Grupo 2.
A identificação das variáveis relevantes para o estudo foi cedida por médico
especialista em cardiologia, sendo:
1. Ressonância Magnética
35
2. Cateterismo
3. Cintilografia
4. Angioplastia
5. Marcapasso
6. Sexo
7. Idade
3.1.2 Pré-processamento
Para o Grupo 2, as variáveis quantitativas (1 a 5) foram acumuladas para
cada beneficiário, no período de 5 anos, até a data limite, ou seja, de 01/01/2006 a
31/12/2010. E as variáveis 6 e 7 foram obtidas na data limite.
Os beneficiários do Grupo 2, que não possuíam 5 anos de permanência no
plano de saúde, foram excluídas do estudo, assim como os beneficiários que não
estavam dentro dos limites de idade, sendo 29 a idade mínima e 83 a idade máxima.
Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 está dentro
desta faixa de idade.
Para o Grupo 1, foram excluídos somente os beneficiários que não possuíam
nenhum histórico anterior os procedimento de Revascularização do Miocárdio.
Ao final deste levantamento, obtivemos 271 beneficiários no Grupo 1 e 11.637 no
Grupo 2, com seus dados sumarizados por beneficiário, omitindo-se a identificação
do beneficiário. Para a fase de treinamento e validação, foi criado o atributo rótulo
“Infartado”. Para o Grupo 1, este atributo possui o valor “Sim” e para o Grupo 2, este
atributo possui o valor “Não”.
3.1.3 Mineração de Dados
Pela facilidade de interpretação, o algoritmo escolhido para a mineração dos
dados, foi a árvore de decisão, com aprendizagem supervisionada, que realiza
36
inferência nos dados permitindo que sejam feitos previsões ou descoberto
tendências.
O software utilizado para a realização dos estudos, foi a ferramenta de
software livre WEKA (Waikato Environment for Knowledge Analysis, disponível em
http://www.cs.waikato.ac.nz/ml/weka/), com o algoritmo de classificação J4.8, sendo
uma versão do algoritmo C4.5 proposto por Quinlan (1993).
Para a execução dos testes, foi utilizado o método de validação cruzada com
10 repetições.
3.1.4 Avaliação e Interpretação dos Resultados
Para a avaliação e interpretação dos resultados, é analisado a árvore de
decisão, com as regras geradas, bem como a matriz de confusão, onde observa-se
a acurácia e taxa de erro da população dos dados e de cada regra.
As categorias adotadas para a classificação foram:
A – Com indicativo a ter infarto agudo do miocárdio;
B – Sem indicativo a ter infarto agudo do miocárdio.
3.1.5 Validação das Regras
Para a validação das regras, utilizamos um formulário (Apêndice A), com
discriminação das 16 regras encontradas na árvore de decisão e disponibilizamos
para 2 médicos especialistas em cardiologia.
Neste formulário, os especialistas analisaram as regras e fizeram suas
inferências, validando as mesmas.
37
3.1.6 Aspectos Éticos
Para a elaboração deste trabalho, foram omitidos todas as informações que
pudessem identificar os beneficiários. O arquivo de exportação cedido pela CELOS
não continham os dados pessoais que pudessem identificar os beneficiários,
mantendo assim a privacidade dos mesmos.
4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS
Este capítulo apresentará os resultados obtidos em cada etapa deste
trabalho.
Com uma breve apresentação dos dados de acordo com as variáveis
selecionadas para o estudo. Em seguida, detalha-se os resultados obtidos com a
árvore de decisão gerada pelo WEKA. E por fim, as conclusões apontadas pelos
especialistas com os resultados obtidos com modelo de previsão.
4.1 ANÁLISE DAS VARIÁVEIS
As variáveis utilizadas para estudo são o sexo, idade e quantidade de exames
e internações pela qual os beneficiários foram submetidos.
A sumarização dos exames e internações segue-se as seguintes regras:
Período:
o Infartados: Data final como sendo a data do infarto, limitado a
31/12/2010 e a data inicial sendo a data de inscrição no plano
de saúde;
o Não infartados: de 01/01/2006 a 31/12/2010.
Exclusão da população:
o Infartados: beneficiários que não possuíam nenhum histórico
das variáveis de estudo antes do infarto;
38
o Não-Infartados:
Limitação da idade, entre 29 e 83. O limite de 29 foi
escolhido, em função da idade do infartado, que foi de 34
anos, e como estamos analisando 5 anos de histórico,
subtraímos 5 anos da idade mínima. O limite de 83, é a
idade do infartado de maior idade da população;
Beneficiários que não possuíam 5 anos completos dentro
do plano de saúde;
Realizado esse processo, chega-se ao número de 271 infartados e 11637 não
infartados, conforme gráfico abaixo.
Gráfico 2 - Distribuição da população, entre infartados e não infartados.
A primeira análise realizada com relação ao atributo rótulo, diz respeito ao
sexo dos participantes. Foi verificado que o grande grupo de risco é do sexo
masculino, pois identificou-se os seguintes números:
Sexo masculino:
o Infartado: 216
o Não infartado: 5601
Sexo feminino:
o Infartado: 55
o Não infartado: 6036
Infartado
Não_infartado
39
A seguir, a distribuição da população, referenciando os atributos sexo com a
situação de infartados, distribuído graficamente, onde os pontos vermelhos são do
sexo feminino e os azuis são do sexo masculino, na parte superior do gráfico são os
beneficiários infartados e na parte inferior são os beneficiários não infartados.
Gráfico 3 - Distribuição da população, entre infartados e não infartados.
Em seguida, analisou-se o atributo rótulo infartado, fazendo relação com a
idade dos participantes. Onde verificou-se que a grande concentração dos infartados
(em vermelho) estão entre 53 e 77 anos, conforme distribuição no gráfico a seguir.
Gráfico 4: Distribuição da população de infartados e não infartados, de acordo com a idade.
40
As demais variáveis, tratam do somatório de exames e internações para os
dois grupos de estudo, onde temos o resultado a seguir.
Tabela 7 – Somatório dos exames e internações para os grupos de Infartados e não-infartados.
Infartado Sim Não
ECG 1287 54524
TESTE_ESFORCO 302 17396
CONSULTA_EMERGENCIA 275 39276
ECOCARDIO 267 7830
CATETERISMO 221 704
CINTILOGRAFIA 68 1258
ANGIOPLASTIA 57 486
MARCAPASSO 35 30
MAPA 24 1297
ANGIOTOMOGRAFIA 4 168
RESSONANCIA_MAGNETICA 3 10
Como estamos trabalhando com toda a população de beneficiários, o simples
somatório não evidencia as regras, esta análise foi realizada por meio da árvore de
decisão.
4.2 PRÉ-PROCESSAMENTO
Com a base de dados disponibilizada pela Celos e devido à enorme
quantidade de registros na base de dados, foram criadas duas tabela, uma de
infartados e outra para os não-infartados, de forma a facilitar as consultas futuras.
Ainda nestas tabelas, criamos, em forma de coluna, todas as variáveis do estudo.
Em seguida, as colunas foram populadas, fazendo o somatório das variáveis.
O somatório foi realizado por beneficiário, de acordo com a estrutura a seguir.
41
Tabela 8 – Estrutura do registro utilizado para a criação do objeto de dados para mineração.
Nome Domínio Descrição
ECG Contínuo Quantidade de eletrocardiogramas
realizados pelo beneficiário no
período de 5 anos.
TESTE_ESFORCO Contínuo Quantidade de testes de esforço
realizados pelo beneficiário no
período de 5 anos.
CONSULTA_EMERGENCIA Contínuo Quantidade de consultas de
emergência
realizados pelo beneficiário no
período de 5 anos.
ECOCARDIO Contínuo Quantidade de ecocárdios
realizados pelo beneficiário no
período de 5 anos.
CATETERISMO Contínuo Quantidade de cateterismos
realizados pelo beneficiário no
período de 5 anos.
CINTILOGRAFIA Contínuo Quantidade de cintilografias
realizados pelo beneficiário no
período de 5 anos.
ANGIOPLASTIA Contínuo Quantidade de angioplastias
realizados pelo beneficiário no
período de 5 anos.
MARCAPASSO Contínuo Quantidade de marcapassos
realizados pelo beneficiário no
período de 5 anos.
MAPA Contínuo Quantidade de mapas
realizados pelo beneficiário no
período de 5 anos.
ANGIOTOMOGRAFIA Contínuo Quantidade de angiotomografias
realizados pelo beneficiário no
período de 5 anos.
42
RESSONANCIA_MAGNETICA Contínuo Quantidade de ressonâncias
magnéticas
realizados pelo beneficiário no
período de 5 anos.
SEXO Nominal Sexo do Beneficiário. (F) Feminino
e (M) Masculino
IDADE Contínuo Atributo númerido identificando a
idade do beneficiário.
INFARTADO RÓTULO
(Categórico)
Atributo classe, podendo ser:
(N) Não infartado e (S) Infartado
4.3 MINERAÇÃO DE DADOS
Seguindo a metodologia sugerida por Dallagassa (2009), a ferramenta
utilizada para o processo de mineração foi o WEKA, software livre, produzido pela
Universidade de Waikato – Nova Zelândia, utilizando-se o método de classificação
C4.5 (Quinlan, 1993), aplicando o método de referência cruzada, na repetição 10.
Importado o objeto de mineração na ferramenta, analisou-se a matriz de
confusão gerada pela ferramenta, recurso que nos permite verificar a acurácia e a
taxa de erro do modelo.
No primeiro teste realizado, verificou-se que o atributo “Cateterismo” indicava
o atributo alvo, invalidando os resultados, desta forma, este atributo foi retirado do
modelo.
Após a retirada do atributo, executou-se novamente o algoritmo C4.5, e
obtivemos 97.88% como taxa de acurácia, sendo 11656 registros classificados
corretamente, da população de 11908 registros.
Tabela 9 – Matriz de confusão.
Previsto Real
Não-Infartado Infartado
11625 12 Não-Infartado
240 31 Infartado
43
A árvore de decisão gerada pelo algoritmo, gerou uma estrutura com 16
regras encontradas. A seguir, a árvore gerada pelo algoritmo:
Figura 5 – Árvore de decisão gerada pelo algorítmo.
A seguir, estão descritas as regras encontradas com indicativo a infarto agudo
do miocárdio:
1. Beneficiários que não possuem marcapasso e não fizeram nenhuma
consulta em emergência e fizeram um exame de cintilografia e fizeram até
dois exames de teste de esforço e fizeram um ou mais exames de
ecocárdio e fizeram até 7 exames de ECG e são do sexo masculino;
44
2. Beneficiarios que não possuem marcapasso e que não fizeram nenhuma
consulta em emergência e que fizeram até um exame de cintilografia e são
do sexo masculino e fizeram até 2 exames de teste de esforço e não
fizeram nenhum ecg e são menores de 60 anos;
3. Beneficiarios que não possuem marcapasso e que não fizeram nenhuma
consulta em emergência e que fizeram até um exame de cintilografia e são
do sexo masculino e fizeram até 2 exames de teste de esforço e fizeram 1
ou mais exames de ecocardiografia e fizeram mais de 7 exames de ECG e
são maiores de 68 anos de idade;
4. Beneficiarios que não possuem marcapasso e que não fizeram nenhuma
consulta em emergência e que fizeram mais de um exame de cintilografia
e que são do sexo masculino e fizeram mais de 2 exames de teste de
esforço e fizeram mais de 1 ecocardio e fizeram mais de 1 mapa;
5. Beneficiarios que possuem marcapasso e que fizeram até 15 exames de
ECG e que são do sexo feminino e que não fizeram nenhum exame de
cintilografia;
6. Beneficiarios que possuem marcapasso e que fizeram até 15 exames de
ECG e que são do sexo masculino.
A seguir, o conjunto de regras total encontrados na árvore de decisão.
45
Tabela 10 – Conjunto de regras encontradas na árvore de decisão.
Regras Infartado
Sim Não
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA <= 0)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = F)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA <= 1) e
(ECOCARDIO <= 0) e
( IDADE <= 60)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA <= 1) e
(ECOCARDIO <= 0) e
( IDADE >60)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA <= 1) e
(ECOCARDIO > 0) e
X
46
(ECG <=7)
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA <= 1) e
(ECOCARDIO > 0) e
(ECG > 7) e
(IDADE <= 68)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA <= 1) e
(ECOCARDIO > 0) e
(ECG > 7) e
(IDADE > 68)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO <= 2) e
(CINTILOGRAFIA > 1)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO > 2) e
(ECOCARDIO <= 1)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
X
47
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO > 2) e
(ECOCARDIO > 1) e
(MAPA <= 0)
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA <= 0) e
(CINTILOGRAFIA > 0) e
(SEXO = M) e
(TESTE_ESFORCO > 2) e
(ECOCARDIO > 1) e
(MAPA > 0)
X
(MARCAPASSO <= 0) e
(CONSULTA_EMERGENCIA > 0)
X
(MARCAPASSO > 0) e
(ECG <= 15) e
(SEXO = F) e
(CINTILOGRAFIA <= 0)
X
(MARCAPASSO > 0) e
(ECG <= 15) e
(SEXO = F) e
(CINTILOGRAFIA > 0)
X
(MARCAPASSO > 0) e
(ECG <= 15) e
(SEXO = M)
X
(MARCAPASSO > 0) e
(ECG > 15)
X
48
4.4 VALIDAÇÃO DAS REGRAS
Para a validação das regras, foi criado um formulário para preenchimento por
especialista da área médica em cardiologia, com as regras que indicam a tendência
a infarto agudo do miocárdio.
Como o nosso trabalho verifica somente a tendência de ter ou não ter infarto,
optou-se por inserir neste formulário somente as regras que indicam tendência ao
infarto, de modo que o não atendimento à regra, indica implicitamente que o
beneficiário não tem tendência a ter um infarto.
4.5 AVALIAÇÃO DOS ESPECIALISTAS
Nesta etapa, solicitou-se a avaliação das regras encontradas, por parte de
especialistas em cardiologia, por meio de um instrumento de validação (modelo
disponível no Apêndice A), devidamente respondido pelos especialistas.
O médico especialista respondeu ao instrumento de validação, preenchendo a
coluna “Avaliação da Regra” com as seguintes opções:
1 – Concordo com a regra
2 – Concordo parcialmente com a regra
3 – Discordo da regra
No campo observação, o médico especialista deu o seu parecer sobre a
avaliação informada.
A seguir, quadro com as respostas do especialista convidado para a
avaliação, os comentários retirados desta análise estão disponíveis logo após.
49
Regra Especialista
Beneficiários que não possuem marcapasso
E
não fizeram nenhuma consulta em emergência
E
fizeram um exame de cintilografia E
fizeram até dois exames de teste de esforço
E
fizeram um ou mais exames de ecocárdio
E
fizeram até 7 exames de ECG
E
são do sexo masculino.
1
Beneficiarios que não possuem marcapasso
E
que não fizeram nenhuma consulta em emergência
E
que fizeram até um exame de cintilografia
E
são do sexo masculino e
fizeram até 2 exames de teste de esforço
E
não fizeram nenhum ecg e
são menores de 60 anos.
2
Beneficiarios que não possuem marcapasso
E
que não fizeram nenhuma consulta em emergência
E
que fizeram até um exame de cintilografia
E
são do sexo masculino
E
fizeram até 2 exames de teste de esforço
2
50
E
fizeram 1 ou mais exames de ecocardiografia
E
fizeram mais de 7 exames de ECG
E
são maiores de 68 anos de idade.
Beneficiarios que não possuem marcapasso
E
que não fizeram nenhuma consulta em emergência
E
que fizeram mais de um exame de cintilografia
E
que são do sexo masculino e
fizeram mais de 2 exames de teste de esforço
E
fizeram mais de 1 ecocardio e
fizeram mais de 1 mapa.
2
Beneficiarios que possuem marcapasso
E
que fizeram até 15 exames de ECG
E
que são do sexo feminino
E
que não fizeram nenhum exame de cintilografia.
1
Beneficiarios que possuem marcapasso
E
que fizeram até 15 exames de ECG
E
que são do sexo masculino.
1
No quadro a seguir, os comentários realizados pelo especialista, da forma
exata como foi escrito, para cada regra avaliada:
51
Regra Especialista
Beneficiários que não possuem
marcapasso
E
não fizeram nenhuma consulta em
emergência
E
fizeram um exame de cintilografia E
fizeram até dois exames de teste de
esforço
E
fizeram um ou mais exames de
ecocárdio
E
fizeram até 7 exames de ECG
E
são do sexo masculino.
Marcapasso seria uma consequência da
revascularização.
?? nenhuma consulta em emergência??
Cintilografia ok -> revascularização obr
detecção da isquemia.
Ecocardio ok ->
ECG -> OK qto a frequência
Sexo Masculino é mais suscetível aos
eventos coronarianos.
Beneficiarios que não possuem
marcapasso
E
que não fizeram nenhuma consulta em
emergência
E
que fizeram até um exame de
cintilografia
E
são do sexo masculino e
fizeram até 2 exames de teste de
esforço
E
não fizeram nenhum ecg e
são menores de 60 anos.
Teste de esforço 2 em um intervalo de 5
anos = concorda
2 teste de esforço em 5 anos = ok.
Discorda e equivoco em relação ao ECG.
Menor de 60 anos – havia tendência
abaixo de 70, acima de 70 tratamento
clinico – Hoje em dia isso esta mudando.
Comenta que deva-se considerar um
ponto de corte um pouco mais alto de 70
anos.
Beneficiarios que não possuem
52
marcapasso
E
que não fizeram nenhuma consulta em
emergência
E
que fizeram até um exame de
cintilografia
E
são do sexo masculino
E
fizeram até 2 exames de teste de
esforço
E
fizeram 1 ou mais exames de
ecocardiografia
E
fizeram mais de 7 exames de ECG
E
são maiores de 68 anos de idade.
-- concordo parcialmente. Emerg.= 0
como sendo tratamento eletivo
Algumas revascularizações acontecerão
depois de uma consulta de emergência.
Acima de 70 comentário acima e com
foco no tratamento eletivo.
Beneficiarios que não possuem
marcapasso
E
que não fizeram nenhuma consulta em
emergência
E
que fizeram mais de um exame de
cintilografia
E
que são do sexo masculino e
fizeram mais de 2 exames de teste de
esforço
E
fizeram mais de 1 ecocardio e
Mais de 1 mapa valida a experiência .
53
fizeram mais de 1 mapa.
Beneficiarios que possuem marcapasso
E
que fizeram até 15 exames de ECG
E
que são do sexo feminino
E
que não fizeram nenhum exame de
cintilografia.
Essa regra pode ser explorada
/detalhada para investigação, acrescida
do procedimento cateterismo.
Concorda na negação da cintio, porem
terá que realizar um Cateterismo.
Beneficiarios que possuem marcapasso
E
que fizeram até 15 exames de ECG
E
que são do sexo masculino.
Essa regra pode ser explorada
/detalhada para investigação, acrescida
do procedimento cateterismo.
Concorda na negação da cintio, porem
terá que realizar um Cateterismo.
Conforme as respostas do médico especialista, nenhuma regra encontrada
pela árvore de decisão foi rejeitada.
Percebe-se em alguns comentários o questionamento sobre o número de
consultas em emergência. Analisando a base de dados, descobrimos realmente que
o número é muito baixo, o que pode indicar uma falha na base de dados e não no
modelo encontrado.
54
5 CONSIDERAÇÕES FINAIS
Em 2010, as empresas de plano de saúde comprometeram, em média,
o equivalente a 79,8% do arrecadamento total somente com despesas assistências,
obtendo no final do balanço um lucro de 1,8%. (BRASIL, IESS, 2011).
A arrecadação de uma operadora de plano de saúde é conhecida de
antemão, enquanto as despesas são variáveis, e os custos são maiores quando o
atendimento aos beneficiários é reativo a suas doenças. Por isso, as operadoras de
plano de saúde precisam mudar o modelo de gerenciamento de seus beneficiários,
focando em um modelo preventivo a doenças, visando melhorar a qualidade de vida
dos seus beneficiários e também diminuir os custos assistenciais. Essa é uma ação
crítica para as operadoras de plano de saúde para que possam sobreviver em meio
à grande concorrência e aos altos custos assistências (Miranda, 2003).
O Infarto Agudo do Miocárdio é a principal causa isolada de mortes no Brasil,
e o seu tratamento é de alto custo para as operadoras. Observou-se que no Plano
CELOS, o custo médio para o tratamento de um beneficiário que sofreu IAM nos
últimos 5 anos esteve acima de 40 mil reais.
Nesse contexto, surgiu a motivação para a utilização de técnicas de
Inteligência Artificial voltadas à descoberta de padrões em Banco de Dados para a
identificação de beneficiários com indicativos a Infarto Agudo do Miocárdio, para que
estes sejam encaminhados a programas de prevenção, proporcionando melhor
qualidade de vida e, consequentemente, diminuindo os custos assistenciais dos
planos de saúde.
A elaboração das regras, a partir da árvore de decisão gerada pelo algoritmo,
permitiu que um especialista em cardiologia atestasse o conhecimento encontrado,
validando as regras encontradas, sendo que, nenhuma hipótese foi recusada pelo
especialista, mostrando a eficiência da metodologia proposta por Dallagassa.
O resultado deste trabalho pode ser amplamente utilizado pela CELOS, para
a criação de programas promoção, prevenção e gerenciamento de casos de
beneficiários que possuem tendência a ter um infarto agudo do miocárdio. Este tipo
de trabalho, além de promover a qualidade de vida dos participantes do plano de
saúde, permite um melhor gerenciamento dos recursos financeiros do plano de
saúde, até mesmo, a diminuição dos custos com internações e procedimentos.
55
5.1 TRABALHOS FUTUROS
Para trabalhos futuros, verificou-se a necessidade da construção de um
aplicativo que implementasse a metodologia proposta por Dallagassa (2009). Este
aplicativo deveria ter a capacidade de solicitar ao usuário a definição do atributo
rótulo e das variáveis que serão utilizadas no modelo. A partir desta definição,
padronizar a entrada dos dados do modelo, através de arquivos XML ou outras
soluções possíveis.
Ainda como sugestão, poderia existir neste aplicativo uma interface de
conexão com bancos de dados, onde seria possível programar as consultas que
resultariam nos dados do modelo.
56
REFERÊNCIAS
AURÉLIO, Marco; VELLASCO, Marley; LOPES, Carlos Henrique. Descoberta de Conhecimento e Mineração de Dados. Rio de Janeiro, 1999.
BRASIL. Agência Nacional de Saúde Suplementar. Caderno de Informação da Saúde Suplementar: Beneficiários, Operadoras e Planos. Rio de Janeiro: ANS, 2010. 12 p.
BRASIL. Instituto de Estudos de Saúde Suplementar. As despesas das operadoras de planos de saúde representam 98% da receita de mensalidades. Disponível em: <http://www.iess.org.br/informativosiess/15.htm>. Acesso em 15 de jul. 2011.
CELOS, Regulamento do Plano CELOS Saúde. Florianópolis: CELOS: 2011.
DALLAGASSA, Marcelo. Concepção de uma metodologia para a identificação de beneficiários com indicativos de Diabetes Mellitus Tipo 2. Programa de Pós-Graduação em Tecnologia em Saúde. Pontifícia Universidade Católica do Paraná. Curitiba, 2009.
DIETTERICH, Thomas G. Machine Learning. In Nature Encyclopedia of Cognitive Science, London: Macmillan, 2003.
FAYYAD, Usama; PIATESKY-SHAPIRO, Gregory; SMYTH, Padhraic. Advances in Knowledge Discovery and data mining. Boston: MIT Press, 1996.
HALHUBER, Carola; HALHUBER, Max J.; HELLMUTH, Bruno. Infarto do miocárdio: detecção precoce, como superá-lo, como evitar o reinfarto. Rio de Janeiro: Ao Livro Técnico, 1981.
KAMEL, Dilson; KAMEL, José Guilherme Nogueira. Como prevenir o enfarto do miocárdio: através de atividade física e alimentação adequada. Rio de Janeiro: Sprint, 1996. 103 p.
KOBUS, Luciana S. G. Aplicação da Descoberta de Conhecimentos em Bases de Dados Para Identificação de Usuário com Doenças Cardiovasculares Elegíveis Para Programas de Gerenciamento de Caso. Programa de Pós-Graduação em Tecnologia em Saúde. Pontifícia Universidade Católica do Paraná. Curitiba, 2006.
MIRANDA, Cláudio Rocha, Gerenciamento de Custos em Planos de Assistência à Saúde, 2003. Trabalho Técnico. Rio de Janeiro: Agência Nacional de Saúde
57
Suplementar. Disponível em: <http://www.ans.gov.br/portal/upload/biblioteca/TT_AS_20_ClaudioMiranda_GerenciamentodeCusto.pdf> Publico em nov. 2003. Acesso em 15 de jul. 2011.
OLSZEWER, Efrain. Como enfrentar a angina de peito e o infarto agudo de miocárdio. São Paulo: Ícone, 1992.
QUINLAN, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers. Califórnia, USA: Morgan Kaufmann, 1993.
REFAEILZADEH, Payam; TANG, Lei; LIU, Huan. Cross Validation. In Encyclopedia of Database Systems. Springer, 2009.
SOCIEDADE BRASILEIRA DE CARDIOLOGIA (SBC). III Diretrizes Sobre Tratamento do Infarto Agudo do Miocárdio. Disponível em: <http://publicacoes.cardiol.br/consenso/2004/DirIII_TrataIAM.pdf>. Publicado em ago. 2004. Acesso em 10 de nov. 2011.
TURBAN, Efraim. Decision Support and Expert Systems: management support systems. New Jersey, USA: Prentice-Hall Inc, 1995.
VIANNA, Rossana Cristina Xavier Ferreira. Identificação de Características Relacionadas à Mortalidade Infantil Utilizando a Descoberta de Conhecimento em Base de Dados de Saúde Pública. Programa de Pós-Graduação em Tecnologia em Saúde. Pontifícia Universidade Católica do Paraná. Curitiba, 2007.
WEKA, Waikato Environment for Knowledge Analysis. Disponível em <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em 15 de dez. 2011, University of Waikato, New Zealand, 2007.
58
APÊNDICE A
Instrumento para Avaliação por Especialistas
Especialidade médica:
Breve descrição da metodologia utilizada para a criação das regras:
Para a realização do estudo, selecionamos dados de dois grupos distintos da
base de dados, tendo adotado a data de 31/12/2010 como data limite:
Grupo 1: Beneficiários que se submeteram ao procedimento de
“Revascularização do Miocárdio”;
Grupo 2: Beneficiários que não se submeteram ao procedimento de
“Revascularização do Miocárdio”.
Para a criação destes dois grupos, foi verificada a ocorrência do procedimento
“Revascularização do Miocárdio”, dentre as internações pelas quais os beneficiários
se submeteram. Para os beneficiários onde houve ocorrência do procedimento de
Revascularização do Miocárdio, o mesmo foi classificado no Grupo 1, e para os que
não tiveram ocorrência deste procedimento, foram classificados no Grupo 2.
A identificação das variáveis relevantes para o estudo foi cedida por médico
especialista em cardiologia, sendo:
1. Ressonância Magnética;
2. Cateterismo;
3. Cintilografia;
4. Angioplastia;
5. Marcapasso;
6. Sexo;
7. Idade;
8. Consulta de Emergência.
Para o Grupo 2, as variáveis quantitativas (1 a 5) foram acumuladas para
cada beneficiário, no período de 5 anos, até a data limite, ou seja, de 01/01/2006 a
31/12/2010. E as variáveis 6 e 7 foram obtidas na data limite.
Os beneficiários do Grupo 2, que não possuíam 5 anos de permanência no
plano de saúde, foram excluídas do estudo, assim como os beneficiários que não
59
estavam dentro dos limites de idade, sendo 29 a idade mínima e 83 a idade máxima.
Este limite de idade foi feito para equiparar os grupos, pois o Grupo 1 está dentro
desta faixa de idade.
Para o Grupo 1, foram excluídos somente os beneficiários que não possuíam
nenhum histórico anterior os procedimento de Revascularização do Miocárdio.
Ao final deste levantamento, obtivemos 271 beneficiários no Grupo 1 e 11.637
no Grupo 2, com seus dados sumarizados por beneficiário, omitindo-se a
identificação do beneficiário.
Preenchimento: o médico especialista deve preencher a coluna “Avaliação da Regra” com as seguintes opções:
1 – Concordo com a regra
2 – Concordo parcialmente com a regra
3 – Discordo da regra
No campo observação, o médico especialista deve dar o seu parecer sobre a
avaliação informada.
Regra Avaliação
da Regra
Observação
Beneficiários que não possuem
marcapasso
E
não fizeram nenhuma consulta em
emergência
E
fizeram um exame de cintilografia
E
fizeram até dois exames de teste
de esforço
E
fizeram um ou mais exames de
ecocárdio
E
60
fizeram até 7 exames de ECG
E
são do sexo masculino.
Beneficiarios que não possuem
marcapasso
E
que não fizeram nenhuma
consulta em emergência
E
que fizeram até um exame de
cintilografia
E
são do sexo masculino e
fizeram até 2 exames de teste de
esforço
E
não fizeram nenhum ecg e
são menores de 60 anos.
Beneficiarios que não possuem
marcapasso
E
que não fizeram nenhuma
consulta em emergência
E
que fizeram até um exame de
cintilografia
E
são do sexo masculino
E
fizeram até 2 exames de teste de
esforço
E
fizeram 1 ou mais exames de
61
ecocardiografia
E
fizeram mais de 7 exames de
ECG
E
são maiores de 68 anos de idade.
Beneficiarios que não possuem
marcapasso
E
que não fizeram nenhuma
consulta em emergência
E
que fizeram mais de um exame de
cintilografia
E
que são do sexo masculino e
fizeram mais de 2 exames de
teste de esforço
E
fizeram mais de 1 ecocardio e
fizeram mais de 1 mapa.
Beneficiarios que possuem
marcapasso
E
que fizeram até 15 exames de
ECG
E
que são do sexo feminino
E
que não fizeram nenhum exame
de cintilografia.
Beneficiarios que possuem
marcapasso
62
E
que fizeram até 15 exames de
ECG
E
que são do sexo masculino.
top related