predição de internações por condições sensíveis à atenção básica · 2020. 5. 13. ·...

98
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA Z ILMAR S OUSA S ILVA Predição de Internações por Condições Sensíveis à Atenção Básica Goiânia 2020

Upload: others

Post on 21-Nov-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE INFORMÁTICA

ZILMAR SOUSA SILVA

Predição de Internações por CondiçõesSensíveis à Atenção Básica

Goiânia2020

Page 2: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração
Page 3: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

ZILMAR SOUSA SILVA

Predição de Internações por CondiçõesSensíveis à Atenção Básica

Dissertação apresentada ao Programa de Pós–Graduação doInstituto de Informática da Universidade Federal de Goiás,como requisito parcial para obtenção do título de Mestre emCiência da Computação.

Área de concentração: Ciência da Computação.

Orientador: Prof. Dr. Rogerio Lopes Salvini

Goiânia2020

Page 4: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Ficha de identificação da obra elaborada pelo autor, através doPrograma de Geração Automática do Sistema de Bibliotecas da UFG.

CDU 004

Sousa Silva, Zilmar Predição de Internações por Condições Sensíveis à Atenção Básica[manuscrito] / Zilmar Sousa Silva. - 2020. XCVII, 97 f.

Orientador: Prof. Dr. Rogerio Lopes Salvini. Dissertação (Mestrado) - Universidade Federal de Goiás, Institutode Informática (INF), Programa de Pós-Graduação em Ciência daComputação, Goiânia, 2020. Bibliografia. Apêndice. Inclui siglas, abreviaturas, gráfico, tabelas, lista de figuras, listade tabelas.

1. Internações. 2. Condições sensíveis a atenção básica. 3. Previsão. 4.Mineração de dados. 5. Aprendizado de Máquina. I. Lopes Salvini,Rogerio, orient. II. Título.

Page 5: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

08/05/2020 SEI/UFG - 1257359 - Ata de Defesa de Dissertação

https://sei.ufg.br/sei/controlador.php?acao=documento_imprimir_web&acao_origem=arvore_visualizar&id_documento=1354386&infra_sistema=1… 1/2

UNIVERSIDADE FEDERAL DE GOIÁS

INSTITUTO DE INFORMÁTICA

ATA DE DEFESA DE DISSERTAÇÃO

Ata nº 09/2020 da sessão de Defesa de Dissertação de Zilmar Sousa Silva, que confere o título de Mestreem Ciência da Computação, na área de concentração em Ciência da Computação.

Aos dezesseis dias do mês de abril de dois mil e vinte, a partir das catorze horas, via sistema dewebconferência da RNP, realizou-se a sessão pública de Defesa de Dissertação intitulada “Predição deInternações por Condições Sensíveis à Atenção Básica”. Os trabalhos foram instalados pelo Orientador,Professor Doutor Rogerio Lopes Salvini (INF/UFG) com a participação dos demais membros da BancaExaminadora: Professor Doutor Fábio Nogueira de Lucena (INF/UFG), membro titularexterno; Professor Doutor Anderson da Silva Soares (INF/UFG), membro titular interno. A realização dabanca ocorreu per meio de videoconferência, em atendimento à recomendação de suspensão das atividadespresenciais na UFG dadas pelo Comitê UFG para o Gerenciamento da Crise COVID-19, bem como àrecomendação de isolamento social da Organização Mundial de Saúde e do Ministério da Saúde paraenfrentamento da emergência de saúde pública decorrente do novo coronavírus. Durante a arguição osmembros da banca não fizeram sugestão de alteração do título do trabalho. A Banca Examinadora reuniu-seem sessão secreta a fim de concluir o julgamento da Dissertação, tendo sido o candidato aprovado pelosseus membros. Proclamados os resultados pelo Professor Doutor Rogerio Lopes Salvini, Presidente da BancaExaminadora, foram encerrados os trabalhos e, para constar, lavrou-se a presente ata que é assinada pelosMembros da Banca Examinadora, aos dezesseis dias do mês de abril de dois mil e vinte.

TÍTULO SUGERIDO PELA BANCA

Documento assinado eletronicamente por Anderson Da Silva Soares, Professor do MagistérioSuperior, em 16/04/2020, às 16:48, conforme horário oficial de Brasília, com fundamento no art. 6º,§ 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

Documento assinado eletronicamente por Rogerio Lopes Salvini, Professor do Magistério Superior,em 16/04/2020, às 16:48, conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, doDecreto nº 8.539, de 8 de outubro de 2015.

Documento assinado eletronicamente por Fábio Nogueira De Lucena, Professor do MagistérioSuperior, em 16/04/2020, às 16:49, conforme horário oficial de Brasília, com fundamento no art. 6º,§ 1º, do Decreto nº 8.539, de 8 de outubro de 2015.

Documento assinado eletronicamente por ZILMAR SOUSA SILVA, Discente, em 16/04/2020, às 17:10,conforme horário oficial de Brasília, com fundamento no art. 6º, § 1º, do Decreto nº 8.539, de 8 deoutubro de 2015.

A auten�cidade deste documento pode ser conferida no siteh�ps://sei.ufg.br/sei/controlador_externo.php?

Page 6: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

ZILMAR SOUSA SILVA

Predição de Internações por CondiçõesSensíveis à Atenção Básica

Dissertação defendida no Programa de Pós–Graduação do Instituto deInformática da Universidade Federal de Goiás como requisito parcialpara obtenção do título de Mestre em Ciência da Computação, aprovadaem 16 de Abril de 2020, pela Banca Examinadora constituída pelosprofessores:

Prof. Dr. Rogerio Lopes SalviniInstituto de Informática – UFG

Presidente da Banca

Prof. Dr. Anderson da Silva SoaresInstituto de Informática – UFG

Prof. Dr. Fábio Nogueira de LucenaInstituto de Informática – UFG

Page 7: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Todos os direitos reservados. É proibida a reprodução total ou parcial dotrabalho sem autorização da universidade, do autor e do orientador(a).

Zilmar Sousa Silva

Page 8: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Esta pesquisa é resultado de um sonho de infância.Dedico à minha filha Luana, que dá sentido a minha vida e por quem acordo

todos os dias, pois me dá motivos para continuar trabalhando, estudando e me aperfeiço-ando. Cada noite mal dormida, cada km de estrada percorrido foi por ela.

Dedico este trabalho também ao meus pais Arnaldo e Ana Maria, que meincentivaram a trilhar os caminhos dos estudos, e que sempre acreditaram que eu podia iralém. Seus exemplos de vida me inspiram a continuar.

Page 9: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Agradecimentos

Agradeço primeiramente a Deus que me deu forças e sabedoria para chegar atéo fim deste curso de Mestrado.

Agradeço ao Instituto de Informática da faculdade de Ciência da Computação da Uni-versidade Federal de Goiás por ter me dado o prazer de estudar em umas das melhoresuniversidades do país. Agradeço especialmente ao meu orientado Prof. Dr. Rogerio LopesSalvini por ter me dado a oportunidade de ser seu orientando e por toda a ajuda duranteesta caminhada.

Agradeço a todos os professores, que me enriqueceram com seus conhecimentos eexperiências, que tenho certeza irão me ajudar em toda minha jornada.

Agradeço a meu pai Arnaldo que apesar de nunca ter tido a oportunidade de estu-dar, sempre lutou de sol a sol, para que eu pudesse.

A minha mãe Ana Maria, que com toda sua doçura, sempre teve uma palavra amiga, umconselho para dar e sempre me mostrou que eu podia ir além.

Agradeço a minha esposa pela ajuda, compreensão e pela paciência em todas noitesmal dormidas ou pelo tempo que tive que me abster de algumas responsabilidades.

Agradeço a Rosângela de Resende Amorim, secretaria municipal de saúde de Mi-neiros, que me confiou os dados da pesquisa, e que foram primordiais para que a mesmapudesse ser realizada.

Por fim, agradeço a todos que contribuíram direta ou indiretamente para a realizaçãodesta pesquisa.

Page 10: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Resumo

Silva, Zilmar Sousa. Predição de Internações por Condições Sensíveis àAtenção Básica. Goiânia, 2020. 97p. Dissertação de Mestrado. Instituto deInformática, Universidade Federal de Goiás.

Um dos graves problemas com consequências estratégicas e financeiras para o sistema desaúde pública e para as operadoras de convênios privados é a ocorrência de Internaçõespor Condições Sensíveis à Atenção Básica (ICSAB), ou seja, internações que poderiamser evitadas se determinadas ações fossem realizadas na atenção ambulatorial. Os sistemasde saúde possuem dados significativos a respeito dos pacientes atendidos na sua rede,provenientes de uma gama de sistemas de informação da atenção primária ambulatoriale hospitalar. Podemos então usar estes dados e verificar se é possível encontrar padrõesque possam indicar previamente um risco de internação para o paciente. Este trabalho temcomo principal finalidade usar técnicas de mineração de dados, em particular algoritmosde aprendizado de máquina, para gerar modelos para a previsão de ICSAB em seissubgrupos patológicos que se enquadram nesta categoria: Infecção do Trato Urinário,Insuficiência Cardíaca, Bronquite Inespecífica, Doença Pulmonar Obstrutiva Crônica,Diabetes Mellitus e Hipertensão Essencial. Os dados para a execução deste projetosão provenientes de atendimentos de pacientes em unidades de saúde do município deMineiros no Estado de Goiás/Brasil. Dentre os modelos gerados, os que alcançarammelhores resultados foram Árvore de Decisão e SVM (Support Vector Machine) queresultaram em valores de acurácias que variaram de 81% (doença pulmonar obstrutivacrônica) a 92% (hipertensão essencial), e de AUC ROC que variaram de 87% (infecçãodo trato urinário) a 97% (hipertensão essencial). Os resultados alcançados apontam que ouso de modelos de aprendizado de máquina são promissores para a previsão de ICSAB e,combinando com novos estudos usando janelas temporais para previsão, podem contribuirde forma efetiva para a diminuição das internações, e assim, trazer benefícios para opaciente que não precisará passar pela experiência negativa de um tratamento hospitalar.

Palavras–chave

Internações, Condições sensíveis a atenção básica, Atenção primária de saúde,Predição, Mineração de dados

Page 11: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Abstract

Silva, Zilmar Sousa. Prediction of Hospitalizations by Conditions Sensitive toPrimary Care. Goiânia, 2020. 97p. MSc. Dissertation. Instituto de Informática,Universidade Federal de Goiás.

One of the main problems, with strategic and financial consequences for the public he-

alth system and private health insurance providers, is the occurrence of hospitalizations

for Ambulatory Care Sensitive Conditions (ACSC), , that is, hospitalizations that could be

avoided if certain actions were performed in outpatient care. Health systems have signi-

ficant data regarding patients seen in their network, coming from a range of information

systems for primary outpatient and hospital care. We can then use this data and see if

it is possible to find patterns that could previously indicate a risk of hospitalization for

the patient. The main purpose of this work is to use data mining techniques, in particular

machine learning algorithms, to generate models for predicting ACSC in six pathological

subgroups that fall into this category: Urinary Tract Infection, Heart Failure, Unspeci-

fied Bronchitis, Chronic Obstructive Pulmonary Disease, Diabetes Mellitus and Essential

Hypertension. The data for this project are from patient care in health units in the mu-

nicipality of Mineiros, GO, Brazil. Among the models generated, those that achieved the

best results were Decision Tree and SVM (Support Vector Machine) which resulted in

accuracy values ranging from 81 % (chronic obstructive pulmonary disease) to 92 % (es-

sential hypertension) ), and AUC ROC ranging from 87 % (urinary tract infection) to 97

% (essential hypertension). The results achieved indicate that the use of machine learning

models are promising for the prediction of ACSC and, combining with new studies using

temporal windows for forecasting, they can contribute effectively to the reduction of hos-

pitalizations, and thus, bring benefits to the patient who will not need to go through the

negative experience of hospital treatment.

Keywords

Hospitalizations, Ambulatory Care Sensitive Conditions, Primary Health Care,

Prediction, Data Mining

Page 12: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Sumário

Lista de Figuras 14

Lista de Tabelas 16

1 Introdução 191.1 Justificativa 201.2 Hipótese do trabalho 221.3 Objetivos 22

1.3.1 Geral 221.3.2 Específicos 22

1.4 Estrutura geral do documento 23

2 Revisão Sistemática 242.1 Protocolo 24

2.1.1 StArt - State of the Art 24IEEE 25Science Direct 25PUBMed 25SCielo 25

2.1.2 Resultados 252.2 Resultados 26

2.2.1 Infecção do trato urinário 262.2.2 Insuficiência cardíaca 272.2.3 Diabetes mellitus 292.2.4 Bronquite 312.2.5 Hipertensão essencial 312.2.6 Doença pulmonar obstrutiva crônica 32

2.3 Considerações finais 33

3 Fundamentação teórica 353.1 Condições Sensíveis a Atenção Básica 353.2 Mineração de dados e descoberta de conhecimento em bancos de dados 37

3.2.1 Pré-processamento 393.2.2 Mineração de Dados e Aprendizado de Máquina 40

Rede Neural Perceptron Multicamadas 41Máquina de Vetores de Suporte 42Redes Bayesianas 43Árvores de Decisão 44

3.2.3 Pós-processamento 44

Page 13: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Matriz de confusão 45Acurácia 46Precisão 46Sensibilidade 46Especificidade 47F1-Score 47Área sob a curva ROC (AUC ROC) 47

3.3 Considerações finais 48

4 Metodologia 494.1 Seleção dos dados 49

4.1.1 Construção do conjunto de dados para estudo 504.1.2 Seleção dos subgrupos de patologias ICSAB 52

Seleção dos subgrupos de controle 534.2 Pré-processamento e transformação de dados 53

4.2.1 Tratamento de dados incompletos ou ausentes 534.2.2 Criação de características derivadas e categorização 544.2.3 Anonimização de dados 544.2.4 Remoção de dados redundantes e inconsistentes e características descontinu-

adas 554.2.5 Amostragem e balanceamento de classes 554.2.6 Seleção de características para redução de dimensionalidade 554.2.7 Características finais para o estudo 56

4.3 Aprendizado de máquina 584.4 Linguagens e bibliotecas 604.5 Considerações finais 61

5 Resultados 625.1 Infecção do trato urinário 625.2 Insuficiência cardíaca não especificada 645.3 Diabetes mellitus 665.4 Bronquite não especificada 685.5 Hipertensão essencial 705.6 Doença pulmonar obstrutiva crônica 725.7 Considerações finais 74

6 Discussão 756.1 Considerações finais 76

7 Conclusão 777.1 Trabalhos Futuros 77

Referências Bibliográficas 79

Page 14: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

A Seleção de parâmetros dos algoritmos 85A.1 Infecção do trato urinário 85A.2 Insuficiência cardíaca não especificada 87A.3 Diabetes mellitus 89A.4 Bronquite não especificada 91A.5 Hipertensão essencial 93A.6 Doença pulmonar obstrutiva crônica 95

Page 15: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Lista de Figuras

1.1 Valor percentual de cada item que compõem o custo médico-hospitalardas despesas assistenciais. FONTE: Adaptada pelo autor (2019) de IESS[18]. 19

3.1 Fluxograma do processo de descoberta de conhecimento em bancos dedados. FONTE: Editada pelo autor (2019). Fundamentada e traduzida dePang-Ning et al. (2005) [40]. 39

3.2 Formulação da matriz confusão 463.3 Exemplo de uma curva ROC 48

4.1 Metodologia do experimento. FONTE: Produzida pelo autor (2019). 494.2 Fluxograma para formação do conjunto de dados. FONTE: Produzida pelo

autor (2019). 504.3 Metodologia para geração e avaliação dos modelos. FONTE: Produzida

pelo autor (2019). 59

5.1 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 63

5.2 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 65

5.3 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 67

5.4 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 69

5.5 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 71

5.6 AUC ROC para infecção do trato urinário de localização não especificada.FONTE: Produzida pelo autor (2019). 73

A.1 AUC ROC para infecção do trato urinário de localização não especificada(10X).FONTE: Produzida pelo autor (2019). 87

A.2 AUC ROC para insuficiência cardíaca não especificada (10X).FONTE: Produzida pelo autor (2019). 89

A.3 AUC ROC para diabetes mellitus (10X).FONTE: Produzida pelo autor (2019). 91

A.4 AUC ROC para bronquite não especificada (10X).FONTE: Produzida pelo autor (2019). 93

Page 16: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

A.5 AUC ROC para hipertensão essencial (10X).FONTE: Produzida pelo autor (2019). 95

A.6 AUC ROC para doença pulmonar obstrutiva crônica (10X).FONTE: Produzida pelo autor (2019). 97

Page 17: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Lista de Tabelas

2.1 Quadro resumo das técnicas e resultados de trabalhos anteriores paracada patologia estudada no presente trabalho. 34

3.1 Classificação Internacional - Ambulatory Care Sensitive Conditions(ACSC) [19] 36

3.2 Classificação no Brasil - Condições Sensíveis a Atenção Básica (ICSAB) 37

4.1 Resumo dos dados de patologias do estudo ICSAB 524.2 Bases de dados com o quantitativo de registros em cada classe 534.3 Lista de características pré-selecionadas para a pesquisa. 564.4 Parâmetros testados pelo GridSearch 60

5.1 Média (desvio padrão) dos resultados obtidos por cada classificador nosconjuntos de testes para infecção do trato urinário de localização nãoespecificada 62

5.2 Parâmetros mais utilizados para ITU. 635.3 Experimentos com conjunto de testes para insuficiência cardíaca não

especificada 645.4 Parâmetros mais utilizados para IC. 655.5 Experimentos com conjunto de testes para diabetes mellitus 665.6 Parâmetros mais utilizados para DM. 675.7 Experimentos com conjunto de testes para bronquite não especificada 685.8 Parâmetros mais utilizados para BNE. 695.9 Experimentos com conjunto de testes para hipertensão essencial 705.10 Parâmetros mais utilizados para HE. 715.11 Experimentos com conjunto de testes para doença pulmonar obstrutiva

crônica 725.12 Parâmetros mais utilizados para DPOC. 73

A.1 Melhores parâmetros para Árvore de Decisão. 85A.2 Melhores parâmetros para SVM. 86A.3 Melhores parâmetros para MLP. 86A.4 Melhores parâmetros para Árvore de Decisão. 88A.5 Melhores parâmetros para SVM 88A.6 Melhores parâmetros para MLP. 88A.7 Melhores parâmetros para Árvore de Decisão 90A.8 Melhores parâmetros para SVM. 90A.9 Melhores parâmetros para MLP. 90A.10 Melhores parâmetros para Árvore de Decisão. 92

Page 18: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

A.11 Melhores parâmetros para SVM. 92A.12 Melhores parâmetros para MLP. 92A.13 Melhores parâmetros para Árvore de Decisão. 94A.14 Melhores parâmetros para SVM. 94A.15 Melhores parâmetros para MLP. 94A.16 Melhores parâmetros para Árvore de Decisão. 96A.17 Melhores parâmetros para SVM. 96A.18 Melhores parâmetros para MLP. 96

Page 19: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Termos e abreviações 18

Lista de Siglas

AB Atenção Básica. 36ACSC Ambulatory Care Sensitive Conditions. 16, 20, 35, 36

BNE Bronquite Não Específica. 22, 34

CID Classificação Internacional de doenças. 35, 51–53, 58, 66, 70, 72CNS Cartão Nacional de Saúde. 51

DM Diabetes Mellitus Insulino-Dependente. 22DPOC Doença Pulmonar Obstrutiva Crônica. 22, 33, 34

HE Hipertensão Essencial. 22, 34

IC Insuficiência Cardíaca. 22, 28, 34ICD International Statistical Classification of Diseases. 35ICSAB Internações por Condições Sensíveis a Atenção Básica. 12, 16, 20, 22, 23, 35,

36, 51–53, 77ITU Infecção do Trato Urinário. 22, 26, 34

OMS Organização Mundial de Saúde. 30, 54, 57

PEC Prontuário Eletrônico. 22

ROC Receiver Operating Characteristic. 12, 14, 26, 28, 29, 31, 34, 47, 48, 59, 60, 62–76

SUS Sistema Unico de Saúde. 36, 50, 51

Page 20: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 1Introdução

Internações hospitalares aumentam consideravelmente os custos de assistência egeram um grande impacto financeiro na gestão das operadoras e convênios dos sistemaspúblico e privado de saúde. Segundo reportado pelo Índice de Variação de Custos Médico-Hospitalares de 2018 [51], o custo médico-hospitalar per capita cresce a cada ano.Este índice que é o principal indicador utilizado pelo mercado de saúde suplementarcomo referência sobre o comportamento de custos, registrou alta de 16,9% em 12 mesesencerrados em março de 2018.

Conforme esta tendência [16], é possível verificar que entre dezembro de 2014 eo mesmo mês de 2018, houve um aumento do custo médico-hospitalar de 62,1%, mesmocom o total de beneficiários de planos médico-hospitalares caindo 6,3%. A internaçãohospitalar é o item que tem o maior custo na assistência a saúde hospitalar, totalizando61% das despesas, porém é necessário destacar que este valores também incluiem leitosde alto custo como os de UTI. Pode-se observar na Figura 1.1 [16] em destaque ospercentuais de despesas que compõem o custo médico hospitalar no Brasil.

Figura 1.1: Valor percentual de cada item que compõem o custo médico-hospitalar das

despesas assistenciais. FONTE: Adaptada pelo autor (2019) de IESS [18].

Page 21: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

1.1 Justificativa 20

Em razão do alto custo destinado a internações, consequentemente operadorasde plano privados tendem a ter uma lucratividade cada vez menor e um custo cadavez maior. Apesar de alto investimento das operadoras, utilizando novas tecnologias emétodos diagnósticos, equipes médicas também se sentem insatisfeitas com os valorespagos pelos seus serviços. Consequentemente o usuário do serviço paga cada vez maispelos serviços de saúde.

Os pesquisadores Golmohammadi et al. (2016) [25] reportaram em sua pesquisana área da saúde, que a hospitalização por si só é uma questão importante, e a principalfonte de preocupação para os sistemas de saúde do mundo todo. Ainda pode-se observaros agravantes, já que quando lidamos com pacientes de alto risco, incluindo aqueles comdoenças graves e complicações, os custos esperados mais que dobraram.

Dentre as patologias tratadas por internações, existem grupos que são classifi-cados internacionalmente como Ambulatory Care Sensitive Condition (ACSC). Estas pa-tologias tem sido foco de estudos amplos, discutidas internacionalmente desde a décadade 1990 [10]. No Brasil estas patologias são chamadas de Internações por CondiçõesSensíveis à Atenção Primária (ICSAP). A lista de ICSAP brasileira é usada como umaferramenta para medir o desempenho do sistema de saúde [4]. Quando diagnosticadas emhospitalizações, são tratadas como Internações por Condições Sensíveis a Atenção Bá-sica (ICSAB), ou seja, são as internações que poderiam ser evitadas com bons cuidadosambulatoriais.

Isso significa que elas são evitáveis se o risco de internação for diagnosticado deforma precoce, e um tratamento adequado for realizado. Na prática significa que açõesno cuidado ambulatorial com medidas específicas para cada patologia poderiam evitarestas internações, prevenir complicações e evitar que tais condições evoluam para outraspatologias ou estados de saúde mais graves.

1.1 Justificativa

Diagnosticar antecipadamente as doenças e a realização de tratamento ambula-torial adequado deve ter como consequência direta, uma melhora na qualidade de vida dopaciente, que não passará pela experiencia de um tratamento hospitalar. Também não édifícil de supor que, paralelamente à redução das internações hospitalares, ocorrerá umaredução dos custos hospitalares para os convênios e o aumento de lucratividade, tanto dasprestadoras como dos profissionais que atuam na saúde.

O uso da mineração de dados e a aplicação de técnicas de aprendizado demáquina, tem sido bastante discutidas e apresentadas como alternativa na tentativa dediminuir os custos da assistência à saúde.

Page 22: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

1.1 Justificativa 21

Sob esta ótica, as pesquisas de Daghistani et al. (2019) [15] apontaram que ouso preditores de tempo de internação hospitalar, podem afetar os sistemas de saúde,especialmente com a situação atual de diminuição da capacidade de leitos e o aumentodos custos. Isso porque, quando se têm tempo para atender o paciente de uma forma maisadequada, isso pode representar um grande benefício para a saúde do paciente.

A previsão de internações em tempo hábil permite que se possa focar a aten-ção aos pacientes com alto risco de admissão, ou seja, aqueles paciente que têm maiorprobabilidade de sofrerem internações futuras. Isso facilita o processo de seleção destespacientes pois pode-se, a partir desse ponto, classificá-los e indicar prioridades àqueles pa-cientes que têm determinadas características agravantes como a idade, histórico médico,predisposição a outra patologia, etc. Assim sendo, aqueles pacientes que mais necessi-tam de atenção devido a predisposição a uma determinada patologia serão assistidos, pormedidas preventivas, visando evitar o agravamento da situação de saúde.

A possibilidade de classificar os pacientes por risco de admissão e utilizar estainformação de forma adequada pode melhorar a gestão do sistema de saúde nos seguintesaspectos:

1. Saúde do paciente: Como Golas et al. (2018) [23] demonstraram, um pacienteque é classificado corretamente dentro de uma janela temporal adequada, em queseja possível uma intervenção preventiva, pode permitir que outros métodos detratamentos como terapias especiais, medicamentos alternativos, acompanhamento,monitoramento, etc., possam ser utilizados preventivamente. Semelhantemente,McKinley et al. (2019) [33] e Rahimian et al. (2018) [43] reforçam essa teoriae explicam que do ponto de vista do paciente isso é ótimo, pois pode-se evitarque ele passe pela experiência negativa de uma internação/reinternação, com custosmédicos mais altos e métodos de tratamentos mais dolorosos, traumáticos, ou usode medicamentos com contra indicações e efeitos colaterais.

2. Economia de gastos: O gerenciamento de leitos é um problema que deve ser tratadopelos sistemas de saúde público e privado. É preciso que se faça um correta gestãosobre a demanda da quantidade de leitos disponíveis e a quantidade de leitosnecessárias. Muitos leitos vazios representam um problema econômico, porémum baixa oferta de leitos representa um problema ainda maior, pois afeta muitoo sistema de saúde levando a prejuízos graves a saúde da população. Conformeexplicam Daghistani et al. (2019) [15], o uso de técnicas de aprendizado demáquina podem ser usadas para colaborar no gerenciamento clínico de leitos,fornecendo previsões precisas. Com o correto dimensionamento e gestão, centrosde saúde podem realizar um planejamento mais adequado e possa diminuir custosdesnecessários.

Page 23: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

1.2 Hipótese do trabalho 22

3. Contratualização: A classificação correta de pacientes possibilita que outros méto-dos de contratualização possam ser explorados, como fee-for-service, pay for per-

formance (P4P), bundled payments e agora o mais recente fee-for-value [17].

1.2 Hipótese do trabalho

A hipótese deste estudo é que se possa encontrar padrões no histórico médico dopaciente, através da análise de dados clínicos ambulatoriais, e que os mesmos possam sersuficientes para gerar modelos de previsão e que estes modelos possam contribuir paradetecção de futuras internações.

1.3 Objetivos

1.3.1 Geral

O objetivo geral deste estudo é encontrar padrões que identifiquem futurasinternações por meio de dados de atendimentos ambulatoriais realizados em unidadesbásicas de saúde do sistema público registrados em um sistema legado de prontuárioeletrônico do cidadão (PEC) do município de Mineiros, no estado Goiás, Brasil. Parao escopo deste trabalho foram escolhidos 6 subgrupos de patologias de Internações porCondições Sensíveis a Atenção Básica (ICSAB):

• Infecção do trato urinário de localização não especificada (ITU)• Insuficiência cardíaca não especificada (IC)• Bronquite não especificada (BNE)• Doença pulmonar obstrutiva crônica (DPOC)• Diabetes mellitus (DM)• Hipertensão essencial (HE)

1.3.2 Específicos

• Gerar modelos de predição de internações, baseados em algoritmos de aprendizadode máquina, a partir de dados de atendimentos ambulatoriais;

• Comparar as métricas de avaliação de 4 modelos de aprendizado de máquina;• Selecionar as melhores variáveis para um determinado grupo patológico baseado

nas características mais relevantes;• Identificar qual modelo classificador é melhor (em termos de acurácia) para cada

tipo de ICSAB;

Page 24: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

1.4 Estrutura geral do documento 23

• Identificar qual tipo de ICSAB é mais fácil de ser evitada e qual é a mais difícilbaseada nos modelos classificadores usados neste trabalho.

1.4 Estrutura geral do documento

Este trabalho está organizado da seguinte forma: O Capítulo 2 trata da revisãosistemática com a apresentação do protocolo utilizado na pesquisa e apresenta umarevisão bibliográfica com os principais trabalhos relacionados ao tema. No Capítulo 3uma fundamentação teórica para o desenvolvimento do projeto são apresentados, comconceitos e bem como detalhes relevantes do problema em estudo. O Capítulo 4 apresentaa metodologia utilizada na pesquisa e descreve os diversos aspectos que envolvem acoleta, análise e apresentação dos resultados, as linguagens e bibliotecas utilizadas naimplementação dos modelos. O Capítulo 5 apresenta os resultados dos experimentosda pesquisa, com as métricas de avaliação de cada grupo de patologias selecionadas.O Capítulo 6 apresenta as discussões sobre os resultados dos modelos e as métricasapresentadas, principais variáveis e perspectivas de trabalhos futuros. O Capítulo 7 trazas conclusões sobre o pesquisa.

Page 25: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 2Revisão Sistemática

O objetivo deste capítulo é apresentar a revisão sistemática e bibliográfica,expondo os métodos utilizados em diferentes tipos de dados de saúde para previsões deinternações por condições sensíveis à atenção básica com a aplicação de algoritmos deaprendizado de máquina. Portanto, espera-se que o estudo dos métodos mais utilizadosnessa área de pesquisa possam nortear a aplicação das técnicas propostas por meio dosresultados de pesquisas anteriores. A revisão sistemática de bibliografias foi realizadaatravés da aplicação da metodologia apresentada por Zamboni et al. (2010) [55] e comauxilio da ferramenta StArt, ferramenta computacional de apoio à revisão sistemática ecom auxilio no processo descrito por Kitchenham (2004) [28]

2.1 Protocolo

No que diz respeito a criação de modelos computacionais que possam detectarpadrões em dados ambulatoriais e com a finalidade de detecção de internações hospitala-res, alguns questionamentos foram feitos:

• Quais metodologias já foram utilizadas para criação de modelos de detecção deinternações hospitalares?

• Quais as variáveis mais significativas para criação do modelo, dada uma determi-nada patologia?

• Quais os principais tipos de dados que foram utilizados nos modelos desenvolvidos?• Quais os resultados obtidos para estas determinadas patologias?

2.1.1 StArt - State of the Art

Para a revisão foram utilizados resultados de todos os idiomas e realizada asexportações dos resultados das pesquisas das bases de dados em arquivos BibTex (.bib) earquivos biblioteca MEDLINE (PubMed). Estes foram gerados diretamente das bases dedados de pesquisas cientificas: Science Direct, Scielo, PubMed, IEEE.

Page 26: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.1 Protocolo 25

As palavras-chave utilizadas na revisão foram: Hospitalization, ambulatory care

sensitive conditions, primary health care, prediction, data mining, urinary tract infec-

tion, heart failure, nonspecific bronchitis, chronic obstructive pulmonary disease, insulin

dependent diabetes mellitus, essential hypertension;A definição da seguinte string de busca, com a associação das palavras relacio-

nadas na pesquisa possibilitou a busca de artigos cientificos relacionados ao tema.

(("ambulatory care sensitive conditions") OR ("ambulatory care sensitive admissions"))AND ((ab:(Prediction Health)) OR (ab:(Data Mining)) OR (ab:(Knowledge Discovery))OR (ab:(Discovery Health)) OR OR (ab:("machine learning")) AND ("Urinary Tract In-fection") OR ("Heart Failure") OR ("Nonspecific Bronchitis") OR ("Chronic ObstructivePulmonary Disease") OR ("Insulin Dependent Diabetes Mellitus") OR ("Essential Hyper-tension"))

IEEE

Na pesquisa realizada na base de dados IEEE, foram retornados 23 resultadosque foram salvos em arquivo no formato BibTex e exportado para o StArt.

Science Direct

Na pesquisa realizada na base de dados Science Direct, foram retornados 96resultados que foram salvos em arquivo no formato BibTex e exportado para o StArt.

PUBMed

Na pesquisa realizada na base de dados PUBMed, foram retornados 82 resulta-dos que foram salvos em arquivo no formato MEDLINE e exportado para o StArt.

SCielo

Na pesquisa realizada na base de dados SCielo, foram retornados 76 resultadosque foram salvos em arquivo no formato BibTex e exportados para o StArt.

2.1.2 Resultados

Os resultados foram importados na ferramenta StArt e de inicio foram seleciona-dos 277 artigos. Para a revisão sistemática foram considerados todos os tipos de estudosencontrados, dos quais foram mantidos aqueles em que foram observados característicasde acordo com os critérios de inclusão (I) e exclusão (E) definidos no protocolo do StArt

a seguir:

Page 27: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 26

• (I) Pesquisas com técnicas de predição;• (I) Pesquisas com técnicas de extração de conhecimento;• (I) Aprendizagem de máquna aplica a patologias por condições sensíveis na atenção

primaria pertencendo ao escopo desta pesquisa;• (I) Textos em qualquer idioma;• (E) Pesquisas e estudos fora de escopo;• (E) Estudos e pesquisas com Ambulatory Care Sensitive Conditions/Admissions

fora do contexto da Ciência da Computação.

A revisão buscou informações em dois campos principais: abstract e título dosmateriais publicados nas bases de dados. Assim sendo, a ferramenta selecionou 65 artigosdiretamente relacionados ao tema proposto, eliminando os demais devido ao critériosde inclusão/exclusão do StArt. Estes 65 artigos, representam o ponto inicial da pesquisaproposta, e foram revistos e lidos, dos quais 26 podem ser vistos como resumo a seguir, ena Tabela 2.1

2.2 Resultados

2.2.1 Infecção do trato urinário

De acordo com Taylor et al. (2018) [49] pesquisas anteriores demonstraram de-sempenho de diagnóstico inadequado para testes laboratoriais individuais com ferramen-tas de previsão. Por isso usaram modelos preditivos com aprendizado de máquina paratreinar, validar e comparar o disgnóstico em infecção do trato urinário. Compararam seistécnicas e usaram dados de informações demográficas, dados vitais, resultados laborato-riais, medicamentos, história médica pregressa, queixa principal e achados históricos efísicos estruturados. Elaboraram modelos com conjunto completo de 211 variáveis e umconjunto reduzido de 10 variáveis. Nos experimentos, encontraram resultados promisso-res com XGBoost(eXtreme Gradient Boosting), com área sob a curva ROC de 0,826 a0,904. A técnica com XGBoost[49], diagnosticou com precisão os resultados positivos decultura de urina e superou os modelos desenvolvidos anteriormente.

Modelos para o diagnóstico de infecção do trato urinário com decision tree,support vector machine (SVM), random forest (RF) e artificial neural network (ANN)

[39] foram usados. Estas técnicas são amplamente utilizadas em sistemas de diagnósticomédico[39]. Foram criadas para modelar os resultados definitivos do diagnóstico com umconjunto de dados da ITU - Infecção do trato urinário e usaram medidas de precisão,especificidade e sensibilidade para determinar o desempenho de modelos criados. Con-seguiram resultados promissores nos modelos propostos, com a artificial neural network

Page 28: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 27

(ANN) com o maior resultado de precisão de 98,3% para o diagnóstico de a infecção dotrato urinário.

Bertsimas et al. (2019) [9], direcionaram sua pesquisa para identificar criançascom maior risco após uma infecção inicial do trato urinário. Eles usaram modelos deaprendizado de máquina para identificar crianças com maior probabilidade de recorrênciada infecção, e para beneficiar a anulação de exames de cistouretrograma em crianças debaixo risco, que poderiam apenas serem observadas. Seu modelo de características incluíainformações de idade, sexo, raça, peso, percentil da pressão arterial sistólica, disúria,relação urina albumina / creatinina, exposição prévia a antibióticos e medicação atuale 90% dos pacientes eram do sexo feminino. Seu modelo preditivo com aprendizadode máquina e validação cruzada de 5 vezes forneceram desempenho promissor parafacilitar o tratamento individualizado de crianças com uma infecção inicial do tratourinário e conseguiu identificar aquelas com maior probabilidade de risco de reincidência,permitindo uma aplicação mais seletiva de exames.

2.2.2 Insuficiência cardíaca

Pesquisas [23] com aprendizado de máquina demonstram que um modelo paraprever o risco de reinternações de 30 dias em pacientes com insuficiência cardíaca,com uma análise retrospectiva de dados de prontuários eletrônicos, podem trazer bonsresultados. Golas et al. (2018) [23], utilizou dados longitudinais de prontuários eletrônicosde pacientes com insuficiência cardíaca internados em sete grandes hospitadis parceirosda Healthcare System (PHS), uma rede sem fins lucrativos que incluem dois grandescentros acadêmicos na área metropolitana de Boston e vários centros de saúde em todoo leste de Massachusetts. As características incluíam dados demográficos, de utilizaçãoe clínicos estruturados, bem como extratos selecionados de dados não estruturados deanotações feitas por médicos. O modelo de predição de risco foi desenvolvido com deep

unified networks (DUN), uma estrutura de rede de aprendizagem profunda projetada paraevitar o ajuste excessivo. O modelo foi validado com 10-fold cross-validation e resultadoscomparados a modelos baseados em redes de logistic regression, gradient boosting emaxout networks. Seus dados incluíam 11.510 pacientes com 27.334 internações e 6369readmissões de 30 dias para treinar o modelo. Após o processamento de dados, o modelofinal incluiu 3512 variáveis. O modelo de deep unified networks (DUN) teve o melhordesempenho após a 10-fold cross-validation. AUCs para modelos de previsão foram0,664 0,015, 0,650 0,011, 0,695 0,016 e 0,705 0,015 para logistic regression, gradient

boosting, maxout networks e deep unified networks (DUN), respectivamente. Técnicas deaprendizagem profunda tiveram melhor desempenho do que outras técnicas tradicionaisno desenvolvimento deste modelo de previsão baseado em readmissões de 30 dias em

Page 29: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 28

pacientes com insuficiência cardíaca. Fica evidente [23] que esses modelos podem serusados para identificar pacientes com insuficiência cardíaca com hospitalização iminente,permitindo que as equipes de atendimento direcionem as intervenções em seus pacientesde maior risco e melhorando os resultados clínicos gerais.

Acredita-se que o aprendizado de máquina é capaz de aprender interações ocultascomplexas a partir dos dados e tem o potencial de prever eventos como readmissão deinsuficiência cardíaca (IC)[6] e até a morte do paciente. Por isso, uma nova abordagem[6] foi desenvolvida para prever a readmissão ou morte com informações temporais de 30dias e comparou o desempenho deste modelo com outros modelos de previsão comumenteusados. Usou dados de pacientes Austrálianos com idade acima de 65 anos admitidospara IC entre 2003 e 2008, de uma base de dados chamada Hospital Morbidity Data

Collection. Levando em consideração o problema de desequilíbrio de classes, utilizou-seuma abordagem baseada em perceptron multicamada (MLP) para predizer a readmissãoou morte com informações temporais de 30 dias e após, comparou o desempenho preditivocom as métricas de desempenho, ou seja, AUC ROC, área sob a curva de recuperação deprecisão (AUPRC), sensibilidade e especificidade com outros modelos de aprendizadode máquina e modelos de regressão. Observou uma AUC de 0,55, 0,53, 0,58 e 0,54,enquanto AUPRC de 0,39, 0,38, 0,46 e 0,38 para modelos de random forest, decision

trees, logistic regression, e support vector machines, respectivamente. A abordagembaseada em multilayer perceptron produziu a mais alta AUC (0,62) e a AUPRC (0,46)com 48% de sensibilidade e 70% de especificidade. No modelo para os dados médicoscom desequilíbrio de classes, a abordagem proposta baseada em multilayer perceptron foisuperior[6] a outras técnicas de aprendizado de máquina e regressão para a previsão dereadmissão.

McKinley et al. (2019) [33] explicam que a insuficiência cardíaca (IC) é res-ponsável por mais readmissões durante 30 dias do que qualquer outra condição. Assim,estudaram [33] os impactos de uma intervenção liderada por farmacêuticos na readmissãode 30 dias e na avaliação de fatores preditivos de readmissão em homens afroamericanoscom insuficiência cardíaca. O trabalho esclarece que minorias, particularmente homensafro-americanos, correm um risco maior de readmissão do que a população em geral, eele usa dados demográficos, sociais e clínicos de prontuários eletrônicos de 132 paci-entes afro-americanos admitidos com diagnóstico de internação primária ou secundáriade IC. Os dados coletados desses pacientes foram utilizados para desenvolver e validarum modelo preditivo para avaliar o impacto da intervenção liderada por farmacêuticos eidentificar preditores de readmissão nessa população. Um modelo preditivo para readmis-são de 30 dias foi desenvolvido com o algoritmo de classificação de K-nearest neighbor

(KNN) . O modelo foi capaz de classificar corretamente cerca de 71% dos pacientes comum AUC ROC de 0,70. Além disso, o modelo forneceu um conjunto de atributos chave

Page 30: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 29

do paciente que preveem o status de readmissão.O uso de preditores de tempo de internação hospitalar entre pacientes cardía-

cos, também já foram pesquisados [15], com uso de registros médicos eletrônicos, ondeobservou-se retrospectivamente todos os registros das visitas dos pacientes que foram ad-mitidos em serviço de cardiologia para adultos. A abordagem preditiva baseada no modelode aprendizado de máquina, incorporou dados de saúde simples no momento da admissão.Utilizou algoritmo de ganho de informação para selecionar os atributos mais relevantes eapenas atributos com ganho de informação maior que zero foram utilizados na constru-ção de modelos. Neste caso foram avaliadas quatro diferentes técnicas de aprendizado demáquina e as comparou nas suas medidas de acurácia. O conjunto de dados deste estudoincluiu pacientes adultos admitidos entre 2008 e 2016 no King Abdulaziz Cardiac Center

(KACC), Localizado em King Abdulaziz Medical City Complex, em Riad, capital da Ará-bia Saudita. As variáveis de maior impacto na predição de internação hospitalar foram:frequência cardíaca admissional, pressão arterial sistólica e diastólica na admissão, idadee status do seguro (elegibilidade). Com o uso de modelos de aprendizado de máquinao random forest (RF) superou todos os outros modelos (sensibilidade (0.80), acurácia(0.80), e AUC ROC (0.94)).

2.2.3 Diabetes mellitus

Sousa et al. (2018) [46], usaram dados de faturamento de uma operadora deplano de saúde privada para prever a evolução da doença do diabetes. Por ser umacondição crônica, ela é uma doença que acompanha o paciente por longos anos e nãodesaparece, e muitas vezes leva à piora da saúde do paciente. A pesquisa se mostrou muitopromissora, e enquanto outros trabalhos recentes envolvem registros eletrônicos de saúde(prontuario eletrônico de paciente) de hospitais, a pesquisa Sousa et al. (2018) [46] usouapenas registros financeiros da operadora para prever a evolução da doença do diabetes.Eles conseguiram com uso de recurrent neural network avaliar diabéticos de alto risco,classificando com antecedência as complicações agudas do diabetes, como amputações,desbridamentos, revascularização e hemodiálise, com antecipações das complicaçõesentre 60 a 240 dias. Seus resultados conseguiram atingir uma área sob curva ROCvariando de 0,81 a 0,94.

Lethebe et al. (2019) [30] , pesquisaram a identificação de casos de doençaem registros médicos eletrônicos de atendimento primário. Usaram duas técnicas deaprendizado de máquina para desenvolver e validar duas definições de casos. Para oestudo exploratório, utilizou dados de prontuário eletrônico da rede de atenção básicado Sul de Alberta/Canadá, no período de 2008 a 2016. Com algoritmos de decision-tree

para os casos de diabetes tipo 1 e tipo 2. O algoritmo usou uma combinação de termos de

Page 31: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 30

texto livre, insulina prescrições e idade e apresentou sensibilidade 87,3% (IC95% 79,2%–92,6%), especificidade 85,4%.

Mercaldo et al. (2017) [34] pesquisaram sobre a classificação e diagnósticode pacientes afetados com diabetes mellitus por técnicas de aprendizado de máquina.Propuseram um modelo com um conjunto de características selecionadas de acordo comos critérios da Organização Mundial de Saúde (OMS). Avaliou-se dados do mundo reale com algoritmos de aprendizado de máquina de última geração, obteve um valor deprecisão igual a 0,770 e um recall igual a 0,775, com o algoritmo HoeffdingTree.

Faruque et al. (2019) [22] realizaram uma análise de desempenho de técnicasde aprendizado de máquina para prever diabetes mellitus. A pesquisa empregou qua-tro algoritmos populares de aprendizado de máquina: Support Vector Machine (SVM),Naïve Bayes (NB), K-Nearest Neighbor (KNN) e C4.5 Decision Tree (DT), em dadosde população adulta para prever diabetes mellitus. Seus resultados evidenciaram que aC4.5 Decision Tree (DT) alcançou maior precisão em comparação com outras técnicas deaprendizado de máquina, com uma acurácia de 73.5% para previsão de diabetes mellitus.

Dutta et al. (2018) [21], pesquisaram as importâncias das características paraprevisão de diabetes com aprendizado de máquina. O estudo se concentrou em torno doscaracterísticas mais essenciais para prever se uma pessoa terá chances de desenvolverdiabetes no futuro, com o uso das características corretas e técnicas de aprendizado demáquina na predição do diabetes.

Sneha (2019) [45] também estudou uma seleção de características para a previsãoantecipada do diabetes mellitus. O estudo objetivou fazer uso das características maissignificativas, e projetar um algoritmo de previsão com a aprendizado de máquina paraencontrar o classificador ideal para dar o resultado mais próximo em comparação com osresultados clínicos. Seu método propôs focar na seleção dos atributos que permitissem adetecção precoce do diabetes mellitus com a análise preditiva. Seus resultados mostraramque o algoritmo de decision tree e the random forest têm a maior especificidade de98,20% e 98,00%, respectivamente, para o seu conjunto de dados. O Naïve Bayesian

indicou a melhor precisão de 82,30%. Sua pesquisa também generalizou a seleção dasmelhores características do conjunto de dados para melhorar a precisão da classificação.

Brisimi et al. (2018) [13], pesquisaram um modelo que pudesse realizar a pre-visão de hospitalizações relacionadas ao diabetes com base em registros eletrônicos desaúde (prontuario eletrônico). O objetivo de seu modelo preditivo era identificar os paci-entes com probabilidade de serem hospitalizados durante o ano seguinte devido a com-plicações atribuídas ao diabetes tipo II. Ele testou vários métodos e descobriu clusters depacientes escondidos na classe positiva (hospitalizado). Paralelamente encontrou classi-ficadores de support vector machine capazes de separar amostras positivas do negativo(aqueles não hospitalizados). A convergência do novo método foi estabelecida e as garan-

Page 32: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 31

tias teóricas foram provadas sobre como os classificadores, generalizam para um conjuntode teste não visto durante o treinamento. Seus resultados foram significativos e testadosem um grande grupo de pacientes do Boston Medical Center. Além de descobrir um novométodo de agrupamento, sua classificação alcança uma precisão de 89% (medido em ter-mos de área sob a Curva ROC). Os clusters informativos podem ajudar a interpretar osresultados da classificação, aumentando assim a confiança dos médicos na saída algorít-mica e fornecer algumas orientações para medidas preventivas. Sua pesquisa conseguiuresultados ainda maiores porém com um custo computacional muito elevado e com faltade interpretabilidade. Sua análise mostra que mesmo uma modesta probabilidade de açõespreventivas quando são efetivas (mais de 19%), já são suficientes para gerar uma econo-mia significativa no atendimento hospitalar.

Alghamdi et al. (2017) [5] usaram o SMOTE e ensemble machine learning paraa previsão de diabetes com registros médicos de aptidão cardiorrespiratória. Ele usoudecision tree, naïve bayes, logistic regression, logistic model tree e random forests. Osdados da pesquisa são do projeto Henry Ford ExercIse Testing (FIT). O estudo alcançoualta precisão de predição com os dados do estudo (AUC = 0,92) e mostrou o potencialdas abordagens de ensemble e SMOTE para prever o diabetes com dados de aptidãocardiorrespiratória.

Zou et al. (2018) [56] estudaram a predição de diabetes mellitus, com a utilizaçãodecision tree, random forest e neural network para predizer diabetes mellitus. Eles usaramum conjunto de dados e as informações do exame físico do hospital em Luzhou, Chinacom 14 características. Fizeram experimentos com five-fold cross validation. Devido aalta dimensionalidade dos dados utilizaram a análise de componentes principais (PCA) ea máxima relevância de redundância mínima (mRMR) para reduzir a dimensionalidade.Seus resultados mostraram que a predição com floresta aleatória pode alcançar a maiorprecisão (0.8084) quando todos os atributos foram utilizados.

2.2.4 Bronquite

Barbosa et al. (2018) [7] pesquisou algoritmos de aprendizado de máquina eusou características quantitativas de tomografia computadorizada para prever o inícioeventual da síndrome de bronquite, e com a utilização de Support Vector Machines

(SVMs), conseguiram uma precisão de 85%.

2.2.5 Hipertensão essencial

Pei et al. (2018) [41] pesquisaram um modelo preditivo que pudesse avaliar orisco de um incidente de hipertensão essencial baseado em fatores ambientais e genéticoscom a support vector machine. Eles selecionaram 9 fatores ambientais e 12 fatores

Page 33: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.2 Resultados 32

genéticos para construir o modelo de previsão baseado em 1200 amostras, incluindo559 pacientes com hipertensão essencial e 641 sem a patologia. A acurácia preditiva domodelo de SVM construído com base na função laplaciana foi maior que a função donúcleo de base radial, bem como sensibilidade e especificidade, que foram 63,3 e 86,7%,respectivamente, com o modelo baseado em SVM com função do núcleo laplaciano omelhor desempenho na previsão do risco de hipertensão.

Ye et al. (2018) [53] testaram a previsão de hipertensão para o ano seguinte, onderealizou-se um estudo prospectivo e com a utilização de registros de saúde eletrônicoscom aprendizado de máquina. Eles usaram um algoritmo de aprendizado de máquina,XGBoost, no processo de seleção de características e construção de modelos. Apósgeraram um conjunto de árvores de classificação e atribuiu uma pontuação final de riscopreditivo a cada indivíduo. O modelo de risco de hipertensão com incidente de 1 anoatingiu áreas sob a curva (AUCs) de 0,917 e 0,870 nos conjuntos de teste e validação,respectivamente.

2.2.6 Doença pulmonar obstrutiva crônica

Por ser uma das principais causas de morbidade e mortalidade, Orchard et al.

(2018) [38] pesquisaram o uso da aplicação de técnicas de aprendizado de máquina paramelhorar a previsão do risco de internação hospitalar na doença pulmonar obstrutiva crô-nica. Objetivaram estabelecer se técnicas de aprendizado de máquina aplicadas a con-juntos de dados de tele monitoramento melhoram a previsão de internações hospitalares.Seus modelos com uso de aprendizado de máquina melhoraram os resultados e a pre-visibilidade com dados de sistemas de tele monitoramento. O algoritmo de aprendizadode máquina foi moderadamente superior ao melhor algoritmo de contagem de sintomas(AUC 0,77, IC 95% 0,74-0,79 vs AUC 0,66, IC 95% 0,63-0,68). Na mesma área Ying et

al. (2017) [54], usou deep learning para a classificação de gravidade da doença pulmonarobstrutiva crônica. Conseguiram uma acurácia mais de 90%.

Também Swaminathan et al. (2017) [48], usaram uma abordagem de aprendi-zagem automática para a triagem de pacientes com doença pulmonar obstrutiva crônica.Eles explicam que os pacientes com doença pulmonar obstrutiva crônica são sobrecarre-gados com um risco diário de exacerbação aguda e perda de controle, o que poderia sermitigado por ferramentas eficazes de apoio à decisão sob demanda. No seu estudo, apre-sentaram uma estratégia baseada em aprendizado de máquina para detecção precoce deexacerbações. Seus resultados mostraram que o uso de aprendizado de máquina superamtodos os pneumologistas individuais na identificação de exacerbações quanto na previsãoda triagem.

Spathis e Vlamos (2017) [47] também buscaram nas técnicas de aprendizado

Page 34: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.3 Considerações finais 33

de máquina uma possibilidade de diagnosticar a asma e as doença pulmonar obstrutivacrônica. Eles conseguiram com o uso de random forest superar outras técnicas com umaacurácia de 97,7%.

Dias et al. (2014) [20] estudaram a classificação dos episódios de exacerbaçãoem pacientes com doença pulmonar obstrutiva crônica com aprendizado de máquina. Oclassificador de support vector machine obteve uma AUC de 90%. As neural networks

alcançaram uma AUC de 83%. Seus resultados indicaram que esta abordagem tem opotencial de extrair informações úteis.

Pesquisas foram realizadas para a predição da exacerbação [52] da doençapulmonar obstrutiva crônica com a utilização de padrões fisiológicos de séries temporais,e com técnicas de aprendizado de máquina. Pesquisas [52] clínicas recentes indicaramuma forte associação entre a homeostase fisiológica e o início da exacerbação da DPOC -Doença pulmonar obstrutiva crônica. Assim, a análise dessas variáveis pode fornecer ummeio de prever uma exacerbação em um futuro próximo. Por isso pesquisaram técnicas deaprendizado de máquina baseada em regressão. Usaram variáveis extraídas de registrosfisiológicos longitudinais de pacientes. Os seus resultados experimentais da avaliação comcross validation mostram uma acurácia média de 79,27%.

2.3 Considerações finais

Este capítulo teve por objetivo, apresentar a revisão sistemática e bibliográficasobre aprendizado de máquina e sua aplicação na área da saúde, expondo algumaspesquisas e trabalhos na área de prevenção de admissões em internações por conduçõessensíveis na atenção ambulatorial, que podem ser vistas resumidas na Tabela 2.1.

Buscou-se nesta seção demostrar algumas pesquisas relacionadas ao uso deaprendizado de máquina em dados ambulatoriais da prevenção de admissão hospitalar.No Capítulo 3 serão apresentados os conceitos teóricos que foram utilizados no desen-volvimento da pesquisa, bem como apresenta detalhes relevantes do problema em estudoque ajudam a compreender os conceitos do projeto.

Page 35: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

2.3 Considerações finais 34

Tabe

la2.

1:Q

uadr

ore

sum

oda

sté

cnic

ase

resu

ltado

sde

trab

alho

san

teri

ores

para

cada

pato

logi

aes

tuda

dano

pres

ente

trab

alho

.A

utor

Pato

logi

aB

ase

deD

ados

Téc

nica

sR

esul

tado

sB

erts

imas

etal

.(20

19)[

9]IT

USo

ciod

emog

ráfic

os,C

linic

osD

ecis

ion

Tree

AU

CR

OC

0.76

1(D

T)

Ozk

anet

al.(

2018

)[39

]IT

UD

ados

Clín

icos

DT,

SVM

,RF

eR

NA

Acu

ráci

a98

,3%

(RN

A)

Tayl

oret

al.(

2018

)[49

]IT

UPr

ontu

ário

elet

rôni

coX

GB

oost

AU

CR

OC

0,90

4(X

GB

oost

)G

olas

etal

.(20

18)[

23]

ICPr

ontu

ário

elet

rôni

coD

eep

Uni

fied

Net

wor

ksA

UC

RO

C0,

705±

0,01

5(D

UN

)A

wan

etal

.(20

19)[

6]IC

Dad

osC

línic

osH

MD

C-D

BPe

rcep

tron

Mul

ticam

adas

AU

CR

OC

0,62

(ML

P)M

cKin

ley

etal

.(20

19)[

33]

ICPr

ontu

ário

elet

rôni

coK

-Nea

rest

Nei

ghbo

rA

UC

RO

C0,

70(K

NN

)D

aghi

stan

ieta

l.(2

019)

[15]

ICR

egis

tros

méd

icos

elet

rôni

cos

Ran

dom

Fore

stA

UC

RO

C0,

94(R

F)B

arbo

saet

al.(

2018

)[7]

BN

ED

ados

Clín

icos

Supp

ortV

ecto

rMac

hine

sA

curá

cia

85%

(SV

M)

Orc

hard

etal

.(20

18)[

38]

DPO

CTe

lem

onito

ram

ento

Red

esN

eura

isA

UC

RO

C0,

740

(RN

A)

Yin

get

al.(

2017

)[54

]D

POC

Tele

mon

itora

men

toD

eep

Lea

rnin

gA

curá

cia

90%

(DL

)Sw

amin

atha

net

al.(

2017

)[48

]D

POC

Reg

istr

osm

édic

osde

tria

gem

SVM

,LR

,NB

,KN

N,G

B,L

RA

curá

cia

89,1

%(R

F)Sp

athi

se

Vla

mos

(201

7)[4

7]D

POC

Reg

istr

osm

édic

ose

Fisi

ológ

icos

Ran

dom

Fore

stA

curá

cia

97,7

%(R

F)D

ias

etal

.(20

14)[

20]

DPO

CR

egis

tros

méd

icos

eFi

siol

ógic

osSu

ppor

tVec

torM

achi

neA

UC

RO

C0,

90(S

VM

)X

ieet

al.(

2013

)[52

]D

POC

Fisi

ológ

icos

desé

ries

tem

pora

isR

egre

ssão

Acu

ráci

a79

,27%

(RL

)L

inet

al.(

2019

)[31

]D

POC

Segu

rom

édic

oN

aïve

Bay

esA

UC

RO

C0.

80(N

B)

Sous

aet

al.(

2018

)[46

]D

MFi

nanc

eiro

sR

ecur

rent

Neu

ralN

etw

ork

AU

CR

OC

0,81

a0,

94(R

NN

)L

ethe

beet

al.(

2019

)[30

]D

MR

egis

tros

méd

icos

elet

rôni

cos

Dec

isio

nTr

eeSe

ns.8

7,3%

eE

sp.8

5,4%

(DT

)M

erca

ldo

etal

.(20

17)[

34]

DM

Dad

osC

línic

os(O

MS)

Dec

isio

nTr

ee(H

oeff

ding

Tree

)Pr

ec.0

,770

eR

ecal

l0,7

75(D

T)

Faru

que

etal

.(20

19)[

22]

DM

Dad

osC

línic

osSV

M,N

B,K

NN

eD

TA

curá

cia

73,5

%(D

T)

Dut

taet

al.(

2018

)[21

]D

MD

ados

Clín

icos

LR

,SV

M,R

FA

curá

cia

84%

(RF)

Sneh

a(2

019)

[45]

DM

Pron

tuár

ioel

etrô

nico

DT,

RF

eN

BA

curá

cia

82,3

0%(N

B)

Bri

sim

ieta

l.(2

018)

[13]

DM

Pron

tuár

ioel

etrô

nico

Clu

ster

se

SVM

AU

CR

OC

0,89

(SV

M)

Alg

ham

diet

al.(

2017

)[5]

DM

Reg

istr

osm

édic

osE

nsem

ble,

DT,

NB

,LR

,RF

AU

CR

OC

0,92

(EN

S)Z

ouet

al.(

2018

)[56

]D

MIn

form

açõe

sdo

exam

efí

sico

DT,

RF,

RN

AA

curá

cia

80,8

4%(R

F)Pe

ieta

l.(2

018)

[41]

HE

Info

rmaç

ões

doex

ame

físi

coSu

ppor

tVec

torM

achi

neA

curá

cia

80,1

%(S

VM

)Y

eet

al.(

2018

)[53

]H

ED

ados

ambi

enta

ise

gené

ticos

XG

Boo

stA

UC

0,91

7(X

B)

Page 36: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 3Fundamentação teórica

3.1 Condições Sensíveis a Atenção Básica

De acordo com os estudos de Hodgson et al. (2019) [26], as taxas de admissõeshospitalares para Condições Sensíveis a Atenção Básica (ICSAB) têm sido usadas porpesquisadores e formuladores de políticas como um indicador para avaliar os sistemas desaúde. Prezotto et al. (2015) [42] explicam que as ICSAB são definidas como evitáveispor meio da implantação de cuidados preventivos e de tratamento precoce das doenças.

Desikan et al. (2012) [19] explica que as ICSAB, constituem um conjunto decondições como asma, diabetes, insuficiência cardíaca, bronquite, doenças pulmonaresetc., onde a necessidade de internações de emergência acredita-se que seja evitável. Issogera uma grande oportunidade de equipes médicas melhorarem a assistência ao paciente,podendo ter diagnosticas mais precisos, mais rápidos e em tempo hábil para poder realizarum tratamento mais adequado ao paciente, e evitando ao máximo que este passe pelaexperiência de uma internação hospitalar. Além de também ter potencial para reduzircustos médicos, o que é de interesse para o paciente, operadoras de planos de saúdeprivados, sistema de saúde publico.

De acordo com Desikan et al. (2012) [19], atualmente existem 16 identificado-res internacionais de Ambulatory Care Sensitive Conditions (ACSC), como é conhecidainternacionalmente. Estes identificadores podem ser observados na Tabela 3.1. Semelhan-temente, Alfradique et al. (2009) [3] explicam que no Brasil essas condições estão classi-ficadas em 20 categorias, conforme pode ser observado na Tabela 3.2. Nestas categoriasexistem algumas centenas de doenças subclassificadas e identificadas por seus CID 1.

Conforme a portaria ministerial no 221 de 17 de abril de 2008 [1] que estabeleceuas patologias da lista de ICSAB no Brasil, a principal intenção foi que essa lista fosseusada como instrumento de avaliação da atenção primária e da utilização da atenção

1CID é um acrônimo da Classificação internacional de doenças (ICD - International StatisticalClassification of Diseases and Related Health Problems). Atualmente está na décima versão (CID-10). Eleá a classificação e codificação das doenças e uma ampla variedade de sinais, sintomas, achados anormais,denúncias, circunstâncias sociais e causas externas de danos e/ou doença[2]. Está prevista uma novaversão (CID-11),que deve ser lançada em junho de 2018, para entrar em vigor a partir de 2022

Page 37: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.1 Condições Sensíveis a Atenção Básica 36

Tabela 3.1: Classificação Internacional - Ambulatory Care Sensitive Conditions (ACSC)[19]

Nr Grupo patológico1 Complicação de curto prazo2 Apendice perfurado3 Complicação de longo prazo4 Asma pediátrica5 Doença pulmonar obstrutiva crônica6 Gastroenterite pediátrica7 Hipertensão8 Insuficiência cardíaca congestiva9 Baixo peso ao nascer10 Desidratação11 Pneumonia bacteriana12 Infecção do trato urinário13 Admissão sem procedimento14 Diabetes não controlada15 Asma no adulto16 Amputação de membros inferiores em pacientes com diabetes

hospitalar. Assim ela pode ser aplicada para avaliar o desempenho do sistema de saúdebrasileiro pelo SUS2. Sob o mesmo ponto de vista, Prezotto et al. (2015) [42] afirmamque as ICSAB são definidas como evitáveis por implantação de cuidados preventivos ede tratamento precoce das doenças, e ainda podem ser utilizadas para indicar a situaçãode acessibilidade e de efetividade da atenção primária. Ainda sobre o Brasil, Morimotoet al. (2017) [36] afirmam que é notório que estudos apontem não haver tendência dediminuição nos coeficientes de ICSAB.

Esses fatos evidenciam a necessidade de adoção de técnicas além das que já fo-ram adotadas. Uma dessas técnicas é a previsão de risco através do uso da tecnologia, maisprecisamente algoritmos de aprendizado [36]. Pode-se através de modelos matemáticos,identificar graus de risco de vulnerabilidade de um determinado paciente e ranqueá-los,dentro de uma janela temporal. Ao gerar um valor que indique o risco do paciente, issorepresentaria a possibilidade de o mesmo ser admitido ou mesmo readmitido em umahospitalização.

2O Sistema Único de Saúde (SUS) [37] é um dos maiores e mais complexos sistemas de saúde pública domundo, abrangendo desde o simples atendimento para avaliação da pressão arterial, por meio da AtençãoBásica (AB), até o transplante de órgãos, garantindo acesso integral, universal e gratuito para toda apopulação do país. Com a sua criação, o SUS proporcionou o acesso universal ao sistema público desaúde, sem discriminação. A atenção integral à saúde, e não somente aos cuidados assistenciais, passou aser um direito de todos os brasileiros, desde a gestação e por toda a vida, com foco na saúde com qualidadede vida, visando a prevenção e a promoção da saúde.

Page 38: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 37

Tabela 3.2: Classificação no Brasil - Condições Sensíveis a Atenção Básica (ICSAB)Nr Grupo patológico1 Doenças preveníeis imunizáveis2 Condições evitáveis - sensíveis3 Gastroenterites infecciosas e complicações4 Deficiências nutricionais5 Anemia6 Infecções de ouvido nariz e garganta7 Pneumonias bacterianas8 Asma9 Doenças das vias aéreas inferiores10 Hipertensão11 Angina pectoris12 Insuficiência cardíaca13 Doenças cerebrovasculares14 Diabetes mellitus15 Epilepsias16 Infecção no rim e trato urinário17 Infecção da pele e tecido subcutâneo18 Doença inflamatória de órgãos pélvicos femininos19 Úlcera gastrointestinal20 Doenças relacionadas ao pré-natal e parto

Abordagens com o uso de mineração de dados e aprendizado de máquina,além de outras técnicas, têm sido bastante discutidas e pesquisadas para predição decondições de saúde em pacientes com câncer, doenças cardíacas, fatores psicológicos,mal de parkson, hepatites, etc., mas poucos discutidas no que diz respeito a predição depatologias relacionadas as internações por condições sensíveis a atenção básica.

Sarkar et al. (2013) [44] explicam que técnicas de aprendizado de máquinafizeram da tarefa de detecção de pacientes com o risco de eventos potencialmenteevitáveis, devido à natureza complexa da análise de um prontuário eletrônico de saúde, jáque os dados normalmente estão incompletos e dispersos em várias bases de dados. Paraentender estas técnicas é necessário porém entendermos o processo maior de descobertade conhecimento em bancos de dados como um todo.

3.2 Mineração de dados e descoberta de conhecimentoem bancos de dados

Mineração de dados é o processo de descobrimento automático de informaçõesúteis em grandes repositórios de dados, tal qual Pang-Ning et al. (2005) [40] explicam.

Page 39: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 38

Técnicas de mineração de dados são implantadas para vasculhar grandes bancos de dadosrelacionais, a fim de encontrar novos padrões que são difíceis de se obter diretamente.Sob o mesmo ponto de vista, Theodoridis e Koutroumbas (2008) [50] citam que oreconhecimento de padrões tem o objetivo de classificar os objetos em várias categoriasou classes. Desse modo, os dados de prontuários médicos e informações ambulatoriais seencaixam perfeitamente neste contexto[50].

A mineração de dados é de grande interesse em uma ampla gama de aplicações,como medicina, biologia, análise financeira de mercado, gestão de negócios, exploraçãocientífica, recuperação de imagens, etc. [50] Sua popularidade deriva do fato de que naera da informação e da sociedade do conhecimento, existe uma demanda cada vez maiorpor recuperar informações e transformá-las em conhecimento.

Uma vez que nessas bases de dados é comum encontrarmos conjuntos dedados multivariados de alta dimensão[44], tais como aqueles que são frequentementeencontrados em sistemas que incluem informações de prontuário eletrônico, como dadosdemográficos do paciente, notas de evolução, medicamentos, sinais vitais, históricomédico, imunizações, dados laboratoriais, relatórios de radiologia etc. Neste sentido oprocesso de descoberta de conhecimento em bancos de dados vai nos ajudar a organizarestes dados, eliminar aquilo que é desnecessário e selecionar apenas as característicasmais importantes.

A mineração de dados é parte integrante da descoberta de conhecimento embancos de dados (KDD, do inglês Knowledge Discovery in Databases), que é o processogeral de conversão de dados brutos em informações úteis, conforme explica Pang-Ninget al. (2005) [40]. A Figura 3.1 mostra um fluxograma resumido do processo de KDD[40]. Esse processo consiste em uma série de etapas de manipulação dos dados, desdeo pré-processamento até o pós-processamento da mineração de dados, resultando eminformação útil e conhecimento. Todos estes passos são detalhados nos trabalhos deFayyad et al. (1996) [32] e também de Brachman e Anand (2006) [11].

Page 40: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 39

Figura 3.1: Fluxograma do processo de descoberta de conhecimento em bancos de dados.FONTE: Editada pelo autor (2019). Fundamentada e traduzida de Pang-Ning et al. (2005)[40].

3.2.1 Pré-processamento

Segundo Goldschmidt e Passos (2005) [24], o pré-processamento compreendea captação, organização e o tratamento de dados objetivando prepará-los para as etapasseguintes. As funções do pré-processamento vistas a seguir, se ocupam da preparação dosdados que serão usados nos algoritmos.

Seleção de dados: Identifica-se quais as bases existentes para a captura dosdados e quais informações têm relevância para serem usadas no processo de geração deconhecimento para um problema específico.

Seleção de características: Identifica-se dentro das características disponíveisquais as mais importantes para o domínio de conhecimento apresentado. Neste processopor vezes a ajuda de algoritmos de analise de características, uso de heurísticas e atémesmo o conhecimento do domínio ajudam a selecionar as características mais relevantes.

Limpeza e redução dos dados: Ao longo do processo de descoberta de conhe-cimento, ter disponíveis os dados corretos na amostra de exemplos é importante, pois osalgoritmos dependem destas informações para o aprendizado. Assim é comum a neces-sidade de redução de dimensionalidades, eliminando dados inconsistentes ou com infor-mações ausentes através da limpeza dos dados, cuidando para que os dados selecionadostenham qualidade e relevância suficiente.

Derivação e categorização: Em algum momento pode ser necessário o enrique-cimento de dados de forma a se obter novas informações que possam ser agregadas aosdados e registros já existentes. Isso pode ser realizado categorizando algumas caracterís-

Page 41: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 40

ticas ou mesmo criando outras novas baseadas em informações já existentes e deixandoestes dados mais completos.

Padronização de dados: Muitas vezes é necessário codificar os dados para umformato que os algoritmos possam utilizá-los como entrada para que possam compreenderestes dados e realizar o treinamento e classificação.

Balanceamento de classes: Em problemas de classificação, um problema muitocomum consiste no desbalanceamento das classes, ou seja, quantidades muito desiguaisde casos nas classes que se deseja classificar. Dentre as formas de resolver este problemaestão as técnicas de amostragem (sampling). Os métodos de amostragem mais utilizadossão o oversampling e undersampling que consistem basicamente em calcular a quantidadede dados desbalanceados e diminuir o conjunto de observações com a classificaçãomajoritária, ou aumentar as observações com a classificação minoritária.

Binarização: Determinados algoritmos não conseguem manipular dados quesejam categóricos (ou seja, dados não numéricos). Neste caso, é possível utilizar umconceito chamado de binarização, onde cada valor categórico da variável em questão setransforma em uma nova variável, binária, que indica a presença ou ausência desta novacaracterística que foi criada.

3.2.2 Mineração de Dados e Aprendizado de Máquina

Na etapa de mineração de dados são aplicados algoritmos e técnicas de diversasáreas como aprendizado de máquina, reconhecimento de padrões, estatística, banco dedados, visualização etc.

O aprendizado de máquina é uma ramificação da inteligência artificial queconsiste na realização da análise dos dados e na aplicação de algoritmos que podemproduzir um conjunto de padrões a partir de dados. O objetivo principal de um algoritmode aprendizado de máquina é ser treinado até adquirir a capacidade de generalizar alémdos exemplos e instâncias presentes em um conjunto de dados de entrada, que sãorotulados e usados pelo algoritmo para treinamento. O algoritmo usa este conjunto dedados de treinamento para entender o padrão e para conseguir prever ou classificar novosvalores.

Os algoritmos de aprendizado de máquina podem ser classificados conforme oseu tipo de aprendizado, ou seja, com a forma como eles aprendem com os dados deexemplo. Uma destas formas é chamada de aprendizado supervisionado. Neste tipo deaprendizado é dado um conjunto de dados rotulados no qual já se sabe qual a saídacorreta, ou seja, já se sabe a qual classe pertence cada registro. Este conjunto de dadosrotulado estabelece a ideia de que existe uma relação entre os dados de entrada e de saída.Problemas de aprendizado supervisionado são divididos em “regressão” e “classificação”.Na regressão tenta-se prever os resultados em uma saída contínua, o que significa a buscapor mapear características de entrada para alguma função contínua. Na classificação,

Page 42: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 41

busca-se prever os resultados em uma saída discreta, onde mapeia-se características deentrada em categorias distintas. Nos modelos de aprendizado supervisionado do tipoclassificação a ideia é prever variáveis categóricas, e não numéricas (como no caso daregressão). No aprendizado supervisionado, o conjunto de dados é dividido em dados detreino e dados de teste. Os dados de treino são utilizados para que o algoritmo possacriar o modelo de previsão, que posteriormente será avaliado no conjunto de testes. Osconjuntos de dados possuem amostras rotuladas que permitem o algoritmo criar o modelode previsão através da observação das caraterísticas e dos seus rótulos.

O aprendizado de máquina oferece uma grande quantidade de opções quando setrata de algoritmos. Escolher o algoritmo correto não é uma tarefa simples. Algoritmos sãoaplicados de diferentes formas em diferentes domínios, e cada qual possui característicasdecorrentes dos seus princípios de funcionamento. Enquanto alguns necessitam de grandequantidade de amostras rotuladas, outros necessitam de grande poder de processamento,já outros são mais eficientes com poucos dados. Cada algoritmo tem característicasmais ou menos adequadas ao problema em questão. Neste trabalho foram selecionadosquatro algoritmos mais amplamente utilizados em problemas no domínio desta pesquisa,conforme trabalhos anteriores sumarizados na Tabela 2.1. Estes algoritmos são descritosbrevemente abaixo.

Rede Neural Perceptron Multicamadas

Redes Neurais Artificiais (RNA) são algoritmos computacionais que apresentamum modelo matemático inspirado no sistema nervoso central de organismos inteligentes,mais precisamente no cérebro humano, geralmente utilizados para realizar o reconheci-mento de padrões [35]. RNAs são construídas a partir de um conjunto densamente in-terconectado de unidades simples (também chamadas de neurônios), onde cada unidadetoma um número de entradas de valor real (possivelmente as saídas de outras unidades)e produz uma única saída de valor real (que pode se tornar a entrada para muitas outrasunidades). A arquitetura das redes neurais e a sua forma de aprender com os dados podepossibilitar um bom desempenho deste algoritmo, pois o processo mais habitual de fun-cionamento é fundamentado nas generalizações, que são proporcionadas pela adaptaçãodos parâmetros da rede a um conjunto de padrões previamente apresentados [29], ou sejapela aprendizagem com as amostras de treinamento.

Esta capacidade dos parâmetros de se adaptarem, se encaixa bem com uma ca-racterística comum em prontuários de pacientes, que é a complexidade da informações.Com conjuntos de dados ambulatoriais, clínicos, laboratoriais e até mesmo sociodemográ-ficos de alta dimensionalidade, aliados à capacidade deste tipo de técnica de generalizar,aprendendo por meio de um conjunto de exemplos, torna possível a classificação de dadosmédicos complexos.

Page 43: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 42

Devido a capacidade e desempenho demonstrado pelas redes neurais em váriosexemplos de estudos de classificação para auxílio no diagnóstico de doenças, predição deriscos e prognósticos médicos como os vistos na Seção 2.3, resolveu-se por utilizá-la nosdados apresentados nesta pesquisa. Mais precisamente será aplicado a RNA denominadaPerceptron Multicamadas (MLP, do inglês Multilayer Perceptron).

A MLP é composta por camadas de neurônios ligadas entre si por sinapses compesos e o aprendizado é realizado através de um algoritmo de retropropagação de erroschamado backpropagation. Entre os parâmetros que são ajustados no backpropagation,podemos citar: activation: Função de ativação para a camada oculta; hiddenlayersizes:Representa o número de neurônios e a quantidade de camadas ocultas; solver: É umparâmetro para resolver problemas de otimização de peso; alpha:: É um parâmetro parao termo de regularização (penalidade), que combate o overfitting ao restringir o tamanhodos pesos.

Máquina de Vetores de Suporte

Máquinas de Vetores de Suporte (SVM, do inglês Support Vector Machine) éum método de aprendizado supervisionado, para análise e reconhecimento de padrões,apresentadas por Cortes e Vapnik (1995) [14]. O SVM é um classificador binário que usa aideia que dados podem ser separados por meio de uma reta, plano ou hiperplano, de acordocom o número de dimensões do espaço de dados de entrada. Conceitualmente, Cortes eVapnik (1995) [14] implementam a seguinte ideia: os vetores de entrada são mapeados deforma não linear para um espaço de características de alta dimensionalidade. Neste espaçode características, uma superfície de decisão linear é construída. Em outras palavras, oSVM representa os dados de exemplos como pontos no espaço, mapeando estes exemplos,traçando uma linha que represente a maior separação possível das classes. Essa separaçãolinear é definida como hiperplano. A distância entre o hiperplano e o primeiro ponto decada classe é chamada de margem. A SVM faz a classificação das classes, definindo cadaponto pertencente a uma das classes, e em seguida maximiza a margem de separação. Emoutras palavras, ela classifica as classes corretamente e depois em função dessa restriçãodefine a distância entre as margens. Os novos exemplos de dados são então mapeados nomesmo espaço, com o algoritmo maximizando a distância entre os pontos de cada classe,e gerando assim a classificando sobre qual categorias eles pertencem.

Dentre algumas características importantes do SVM podemos destacar o fato queele funciona muito bem em domínios complexos, com uma clara margem de separaçãoentre as classes e pode não ter bons resultados com conjuntos de dados muito grandes,pois isso pode gerar uma complexidade computacional, devido a um processo de inversãode matrizes. Outra característica que podemos destacar está o fato de ter um ótimodesempenho com conjunto de dados com baixa quantidade de ruídos.

Page 44: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 43

O algoritmo usa funções kernel, que são utilizadas para resolverem problemasque não são linearmente separáveis, gerando uma transformação do espaço. Kernels ajus-tam diferentes modelos e, consequentemente, diferentes valores de previsão. O SVM es-colhe um hiperplano que possua a maior margem de separação para ser um modelo ideal.Este parâmetro de margem (comumente denominado por C), determina um ponto de equi-líbrio razoável entre a maximização da margem e a minimização do erro de classificação.Quanto maior o parâmetro C, o SVM será mais tolerante a erros, escolhendo hiperpla-nos com margens menores. Quanto menor do parâmetro C, o SVM será menos tolerantea erros, escolhendo hiperplanos com margens maiores. Outro parâmetro importante é ogamma que define a influência dos dados de treino no modelo. Este parâmetro definequal a trajetória que queremos no modelo. Valores mais altos indicam que damos muitarelevância aos dados mais próximos na fronteira de separação da margem, indicando queestes dados tem um peso grande. Com valores baixos indicam que estes valores próximosa margem de separação não tem muita relevância. Ou seja, valores altos podem deixar omodelo bem mais complexo.

Redes Bayesianas

Entre os métodos estatísticos, o aprendizado bayesiano [8] se destaca poisutiliza um modelo probabilístico baseado em um conhecimento apriori do problema.Redes bayesianas modelam a dependência condicional, representando esta dependênciapor arestas, em um modelo de grafo probabilístico, utilizando a inferência bayesiana(baseados no teorema de Bayes) para cálculos de probabilidade, e tem sido amplamenteutilizada em diversas áreas, onde o diagnóstico médico é uma delas.

Ben-Gal (2008) [8] explica que as redes bayesianas são usadas para represen-tar o conhecimento sobre um determinado domínio. Cada nó no gráfico representa umavariável aleatória, enquanto as arestas entre os nós representam dependências condici-onais entre as variáveis aleatórias correspondentes. Estas dependências condicionais nográfico frequentemente são estimadas usando dados estatísticos e métodos computacio-nais. Assim, as redes bayesianas combinam princípios da teoria dos grafos, teoria dasprobabilidades, ciência e estatística.

O algoritmo Naïve Bayes (NB) é um classificador probabilístico muito utilizadoem aprendizado de máquina e conforme visto na Tabela 2.1 ele é constantemente dis-cutido em modelos de previsão no domínio apresentado nesta pesquisa que são previsãoutilizando dados de prontuários eletrônicos de pacientes. Este algoritmo supõe que háuma independência entre as características do modelo, significando que a presença deuma determinada característica não tem nenhuma relação com as outras. Umas das im-plementações do Naïve Bayes é o algoritmo Gaussian Naïve Bayes para classificação,onde a probabilidade das características é assumida como gaussiana e para a estimativados parâmetros de média e variância usa-se a máxima verossimilhança.

Page 45: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 44

Árvores de Decisão

Árvores de decisão são métodos de aprendizado de máquinas supervisionado,usadas em várias aplicações que utilizam classificação e regressão.

Mitchell [35] explica que o aprendizado da árvore de decisão é um métodopara aproximar as funções de destino de valor discreto, no qual a função aprendidaé representada por uma árvore de decisão. Árvores aprendidas também podem ser re-representadas como conjuntos de regras SE-ENTÃO para melhorar a legibilidade humana.

Esses métodos de aprendizado estão entre os mais populares dos algoritmos [35]de inferência indutiva e foram aplicados com sucesso a uma ampla gama de tarefas, desdeaprender a diagnosticar casos médicos, no diagnóstico de doenças graves e crônicas,predição de riscos de internação e reinternação prognósticos médicos auxiliando naspossibilidades terapêuticas futuras, como os casos vistos na Seção 2.2.

Existem alguns algoritmos de árvore de decisão e um deles é o CART (Classi-fication and Regression Trees) que possui implementações para várias linguagem, comoR e Python. É um algoritmo que começa da raiz e cria uma divisão com dois nós no pró-ximo nível da árvore, esses nós se subdividem em mais dois nós nos níveis seguintes eem cada etapa, escolhe-se a divisão que produz a maior queda no erro de classificação.Normalmente o algoritmo CART resulta em árvores extensas e faz a poda dos ramos noprocesso final, sendo isso realizado através da parametrização do algoritmo.

Os principais parametros que podem ser configurados podemos citar o criterionque pode ter duas hipoteses: Gini e Entropy. São Duas métricas para escolher comopodemos dividir a árvore.

Outro parametro é o splitter que pode ser entendido como a estratégia usadapara escolher a divisão em cada nó. Neste caso as estratégias suportadas são “best” paraescolher a melhor divisão e “random” para escolher a melhor divisão aleatória. Outroimportante parametro é o max_depth que é a profundidade máxima da árvore. Se esteparâmetro não for configurado, os nós serão expandidos até que todas as folhas estejampuras ou até que todas as folhas contenham menos de amostras min_samples_split que éo número mínimo de amostras necessárias para dividir um nó interno.

Algoritmos de árvores de decisão são muito utilizados em aplicações em apren-dizado de máquina com modelos classificatórios utilizando prontuários médicos de paci-entes, conforme pode ser visto na Tabela 2.1.

3.2.3 Pós-processamento

Esta ultima etapa do processo de descoberta de conhecimento apresentado na Fi-gura 3.1, compreende principalmente a interpretação e avaliação do conhecimento apren-dido. Nesta fase elabora-se e organiza os dados e resultados, incluindo a apresentação emgráficos, diagramas, tabelas e outros tipos de relatórios. No que diz respeito ao objetivo

Page 46: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 45

principal desejado pelos modelos, necessita de métricas de avaliação de desempenho doseu resultado de classificação, já que a probabilidade de erro não é a única métrica quedemonstra seu desempenho de forma suficiente [50]. Nesta seção, serão expostas algumasmétricas importantes comumente usadas na avaliação.

Matriz de confusão

A avaliação do desempenho de uma classificação é baseada na contagens de re-gistros [40] de teste corretamente e incorretamente previstas pelo modelo. Estas contagensnormalmente são organizadas em uma tabela conhecida como matriz de confusão. Assimsendo, a matriz de confusão é um tabela que mostra as frequências de classificação paracada classe do modelo. A Figura 3.2 demostra o exemplo de uma matriz confusão paraduas classes.

Em conformidade com a Figura 3.2, uma matriz de confusão mostra o númerode previsões corretas e incorretas para as classes, feitas pelo algoritmo de classificaçãoem comparação com os resultados reais "classe atual"e os resultados que o algoritmopreviu "classe predita". A matriz é do tipo NxN, onde N é o número de valores de classes.Normalmente avalia-se o desempenho de modelos de classificação dos algoritmos fazendoa interpretação dos resultados da matriz de confusão.

Na Figura 3.2 é apresentada uma matriz de confusão para problemas com duasclasses, ditas positiva e negativa.

• VP = Verdadeiro Positivo : É a frequência de verdadeiro positivo. Representa que,no conjunto de testes, a classe que estamos buscando foi prevista corretamente.

• FP = Falso Positivo : É a frequência de falso positivo. Representa que, no conjuntode testes, a classe que estamos buscando prever foi prevista incorretamente.

• FN = Falso Negativo : É a frequência de falso negativo. Representa que, no conjuntode testes, a classe que não estamos buscando prever foi prevista incorretamente.

• VN = Verdadeiro Negativo : É a frequência de verdadeiro negativo. Representaque, no conjunto de testes, a classe que não estamos buscando prever foi previstacorretamente.

Page 47: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 46

Figura 3.2: Formulação da matriz confusão

Acurácia

Pang-Ning et al. (2005) [40] explicam que, embora uma matriz de confusãoforneça as informações necessárias para determinar o desempenho de um modelo declassificação, resumir essas informações com um único número tornaria mais conveni-ente para compararmos o desempenho de diferentes modelos. Isso pode ser feito como uso de uma métrica de desempenho, como acurácia. Ela é definida como a proporçãodo número total de previsões que estavam corretas, ou seja, a porcentagem do total deregistros classificados corretamente. A acurácia é determinada pela formula a seguir:

Acuracia = (VP+VN)(N+P) , onde N = (VN + FP) , e P = (VP + FN)

Precisão

A precisão é a proporção de casos positivos que foram corretamente identifi-cados, ou seja, o número de itens corretamente identificados como positivos do total deitens identificados como positivos. A precisão é determinada pela formula a seguir:

Precisao = VPVP+FP

Sensibilidade

Sensibilidade ou recall é a proporção de casos positivos reais que são correta-mente identificados, ou seja, o número de itens corretamente identificados como positivosdo total de positivos verdadeiros. A sensibilidade é determinada pela formula a seguir:

Sensibi l idade = VPVP+FN

Page 48: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.2 Mineração de dados e descoberta de conhecimento em bancos de dados 47

Especificidade

Especificidade é a proporção de casos negativos reais que são corretamenteidentificados, ou seja, o número de itens corretamente identificados como negativos dototal de negativos. A especificidade é determinada pela formula a seguir:

Especificidade = VNVN+FP

F1-Score

É uma média harmônica de precisão e sensibilidade, ou seja, o f1-score nosmostra o balanço entre estas duas métricas de nosso modelo. A f1-score é determinadapela formula a seguir:

F1Score = 2∗ precisao∗sensibi l idadeprecisao+sensibi l idade

Convém observarmos que estes cálculos visam demonstrar modelos sobre clas-ses binárias, como por exemplo se vamos prever no modelo se um paciente internou ounão de uma determinada patologia. Em se tratando de classificação multi classes (commais de duas classes possíveis), pode-se tratar sobre a classe que queremos prever, comotambém olhar cada classe em separado. Assim sendo, pode-se na hora de desenhar a ma-triz de confusão, considerar a classe que queremos prever como a classe positiva, e todoo restante como negativo.

Área sob a curva ROC (AUC ROC)

Uma representação gráfica que é amplamente difundida para avaliar o desempe-nho de modelos de aprendizado é a curva ROC (Receiver Operating Characteristic). Elafoi usada pela primeira vez na área de medicina na década de 60 [27]. Curvas ROC ex-pressam graficamente uma relação entre os falsos positivos e verdadeiros positivos atravésda variação de um limiar, no qual esta relação prediz o comportamento do classificador.No gráfico de uma curva ROC, o eixo das das abscissas representa os falsos positivos, e oeixo das ordenadas representa verdadeiros positivos.

A área sob a curva (AUC - Area Under Curve) ROC é frequentemente usadacomo medida de qualidade dos modelos de classificação [50]. Um classificador aleatóriotem uma AUC ROC de 0,5, enquanto a AUC para um classificador perfeito é igual a 1,0.Na prática, a maioria dos modelos de classificação tem uma AUC ROC entre 0,5 e 1,0.Na Figura 3.3 temos o exemplo de uma curva ROC, na qual podemos observar a variaçãoda curva em azul, que projetou um resultado de AUC cujo valor é de 0,9 para este caso.

Page 49: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

3.3 Considerações finais 48

Figura 3.3: Exemplo de uma curva ROC

A analise da curva ROC é uma ferramenta poderosa para medir e especificarproblemas no desempenho do diagnóstico em medicina [12]. Esta análise por meio deum método gráfico simples e robusto, permite estudar a variação da sensibilidade eespecificidade.

3.3 Considerações finais

Este capítulo teve por objetivo apresentar a fundamentação teórica dos principaisconceitos utilizados na pesquisa. Inicialmente, foi descrito a apresentação teórica doproblema relacionado as internações por condições sensíveis a atenção básica, paraem seguida expor os conceitos de descoberta de conhecimentos em banco de dadose mineração de dados. Por fim, são apresentados os critérios de avaliação que serãoutilizados para medir o desempenho dos modelos de previsão propostos.

No Capítulo 4 seguinte, é apresentada a metodologia utilizada para o desenvolvi-mento deste trabalho, para a classificação de internações por condições sensíveis a atençãobásica.

Page 50: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 4Metodologia

Neste capítulo são apresentados os métodos usados para o desenvolvimento dosexperimentos da pesquisa, com a apresentação das bases de dados e todas as etapasda metodologia. A Figura 4.1 sumariza o fluxograma da metodologia utilizada para apesquisa.

Figura 4.1: Metodologia do experimento. FONTE: Produzida pelo autor (2019).

4.1 Seleção dos dados

Os dados utilizados neste estudo são de atendimentos ambulatoriais e internaçõesdo município de Mineiros no estado de Goiás, Brasil, provenientes de dois sistemas deinformações de saúde. A Figura 4.2 demonstra o fluxograma do processo de formação doconjunto de dados, aplicado aos dois bancos de dados relacionais. A descrição de cadaparte deste fluxo é explicado a seguir.

Page 51: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.1 Seleção dos dados 50

Figura 4.2: Fluxograma para formação do conjunto de dados. FONTE: Produzida pelo

autor (2019).

4.1.1 Construção do conjunto de dados para estudo

Os dados iniciais foram selecionados de dois sistemas de informações. O pri-meiro sistema é chamado de e-SUS, que é um software legado de prontuário eletrônicode saúde fornecido pelo Ministério da Saúde, mas que também permite a inserção de fi-chas de atendimentos individuais. Os dados coletados foram provenientes de 11 unidadesbásicas de saúde de atendimento ambulatorial do município sob gestão do SUS, e que

Page 52: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.1 Seleção dos dados 51

realizam atendimentos ambulatoriais. A base inclui dados clínicos, laboratoriais, epide-miológicos, sociodemográficos, ou seja, dados de atendimentos médicos, de enfermageme as condutas profissionais de cada atendimento realizado, além da situação sociodemo-gráfica do paciente através de fichas de cadastro realizadas por agentes de saúde em visitasdomiciliares.

O segundo sistema chamado de SIHD02, é um software de faturamento deinternações hospitalares. Esta base tem registros de todos os pacientes que sofreraminternações no município, bem como a evolução do paciente durante a internação. Abase tem informações hospitalares de internações de 4 hospitais privados que fazematendimento via convênio com o SUS municipal.

Os registros ambulatoriais utilizados neste trabalho foram coletados nos doisbancos de dados no período de 01/2013 a 07/2018.

Um processo de identificação e descrição dos relacionamentos precisou serrealizado, já que não se tem disponível o diagrama de relacionamento dos bancos dedados disponíveis nos manuais desses sistemas. Este processo consistiu em identificare descrever cada uma das características pertencentes a cada um dos bancos de dadosestudado, assim podendo identificar quais características que continham informaçõesrelacionadas ao estudo, e caso alguma característica se revelasse irrelevante, que elapudesse ser removida no processo de seleção. Assim foram realizados a identificaçãodas tabelas e dos relacionamentos nos bancos de dados que continham as informações deprontuário eletrônico e de internações dos pacientes.

Com estas informações foram realizadas as consultas em linguagem de consultaestruturada (SQL), utilizando as ferramentas dos próprios SGDBs em busca dos registrosnesses bancos de dados.

As consultas SQL no banco de dados de atendimentos ambulatoriais seleciona-ram 284.259 registros de dados brutos. Nas consultas SQL, as expressões usadas busca-ram selecionar apenas registros de pacientes que possuíssem um identificar único e quepudessem identificar todos os atendimentos prestados. O identificador utilizado foi o nú-mero do cartão nacional de saúde (CNS). Este atributo foi posteriormente anonimizado(substituído por outros de controle completamente diferentes), por questões de privaci-dade com os dados do paciente.

As consultas SQL no banco de dados de internações hospitalares selecionaram13.078 registros de dados brutos. Essa base de dados tem toda a evolução do pacientedurante a internação e o CID-10 que o paciente foi classificado.

Foram gerados assim dois conjuntos de dados, conforme podemos verificarna Figura 4.2. Foi realizada então a junção dos dois conjuntos de dados (utilizando orecurso join SQL) por meio do CNS do paciente. Para os pacientes que sofreram algumainternação após o atendimento ambulatorial, foram adicionados ao seus registros a datada internação e o nome do grupo de ICSAB referente à internação. Foram verificados

Page 53: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.1 Seleção dos dados 52

a internação que o paciente teve após o registro do atendimento ambulatorial, assimsendo, caso ele tenha mais de uma internação, foi considerado o primeira motivo dehospitalização.

Este conjunto de dados resultou em uma única base de dados brutos com 81características e 284.259 registros.

4.1.2 Seleção dos subgrupos de patologias ICSAB

Uma análise foi realizada entre todos os grupos de patologias ICSAB a fimde buscar quais grupos possuíam uma maior quantidade de registros de pacientes demodo a ter amostras representativas e mais adequadas para a aplicação dos algoritmosde aprendizado de máquina.

Para os casos do grupo infecção no rim e trato urinário, foram pesquisadostodos os CIDs do grupo, porém o subgrupo infecção do trato urinário de localização nãoespecificada foi o que teve dados mais consistentes, assim foram utilizadas este subgrupo.Para os casos do grupo insuficiência cardíaca, foram pesquisados todos os CIDs do grupo,porém o subgrupo insuficiência cardíaca não especificada, foi o que teve uma quantidadede dados consistentes para serem usados na pesquisa. Para os casos do grupo doençaspulmonares, foram pesquisados todos os CIDs do grupo, porém os subgrupo bronquitenão especificada e doença pulmonar obstrutiva crônica foram os que tiveram internaçõessuficientes para terem os dados utilizados na pesquisa. Para os casos do grupo hipertensão,foram pesquisados todos os CIDs do grupo, porém o subgrupo hipertensão essencial foi oque teve número de internações suficientes para utilização na pesquisa. Para os casos dogrupo de diabetes mellitus, foram pesquisados todos os CIDs do grupo que foi utilizadona totalidade.

Desta forma, o foco do estudo passou a ser nos 6 subgrupos de ICSAB conformevisto na Seção 1.3.2. Todas as ocorrências com registros de internações por estas con-dições foram selecionadas. A Tabela 4.1 mostra um resumo da quantidade de registrosresultantes no conjunto de dados.

Tabela 4.1: Resumo dos dados de patologias do estudo ICSABGrupo ICSAB Subgrupo de patologias # registros

Infecção no rim e trato urinário Infecção do trato urinário 2480Hipertensão Hipertensão essencial 2394

Insuficiência cardíaca Insuficiência cardíaca não especificada 1896Doenças pulmonares Doença pulmonar obstrutiva crônica 981

Diabetes mellitus Diabetes mellitus 969Doenças pulmonares Bronquite não especificada 520

Page 54: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.2 Pré-processamento e transformação de dados 53

Tabela 4.2: Bases de dados com o quantitativo de registros em cada classeSubgrupo de patologias Com internação Sem internação

1 Infecção do trato urinário 2480 (5,13 %) 45821 (94,87 %)2 Insuficiência cardíaca não especificada 1896 (7,45 %) 23561 (92,55 %)3 Diabetes mellitus 969 (4,80 %) 19213 (95,20 %)4 Bronquite não especificada 520 (4,95 %) 9986 (95,05 %)5 Hipertensão essencial 2394 (7,24 %) 30662 (92,76 %)6 Doença pulmonar obstrutiva crônica 981 (7,41 %) 12250 (92,59 %)

Seleção dos subgrupos de controle

Uma vez encontrados os casos onde houve internações (classe de exemplospositivos) para cada subgrupo de patologia, foi necessário definir quais seriam os casosonde não houve internação (classe de exemplos negativos - controle). Isto foi feito pormeio de um pareamento dos registros em cada um dos 6 subgrupos de patologias.

Nos registros de dados ambulatoriais têm-se a informação de que o paciente tevedeterminada patologia, informação esta contida na característica CID-10 do conjunto dedados, e que esta patologia pertence ao grupo de patologias pertencentes a ICSAB. Entãoforam realizados o pareamento por idade, sexo e doença baseada no CID-10 do dadoambulatorial do paciente e o CID-10 da internação hospitalar. Para exemplificar, paracada paciente que teve infecção no rim e trato urinário (classe positiva) foi encontrado umou vários paciente com a mesma idade, sexo e que também tem uma patologia referenteà infecção no rim e trato urinário baseado no CID-10, mas que não teve internação.

Foram então criados 6 subconjuntos de dados, um para cada grupo de patologiaestudada, de pacientes que tiveram internação na patologia (classe positiva) e compacientes que não tiveram internação na patologia (classe negativa). A Tabela 4.2 mostraestes conjuntos de dados criados individualmente através do método de pareamentoapresentado nesta seção.

4.2 Pré-processamento e transformação de dados

4.2.1 Tratamento de dados incompletos ou ausentes

Foi observado que algumas características no conjunto de dados não continhamnenhuma informação, uma vez que no sistema legado elas não tinham nenhuma obri-gatoriedade de preenchimento e é comum neste tipo de situação os usuários operadoresnegligenciarem a informação. Sendo assim, estas foram excluídas do conjunto de dados.Como exemplo podemos citar características sociodemográficas como orientação sexuale identidade de gênero que são informações que não são respondidas pelos pacientes, ouinformações clinicas como CID Secundário, já que como a obrigação é de preenchimento

Page 55: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.2 Pré-processamento e transformação de dados 54

de apenas um CID, normalmente o profissional não preenche a informação secundária, oumesmo resultados de exames que não são preenchidas pelos profissionais por não seremobrigatórias.

4.2.2 Criação de características derivadas e categorização

Observou-se que além das informações já existentes no conjunto de dados, seriapossível criar outras características derivadas, já que estas poderiam representar melhor odados do estudo. Assim foram acrescentados 2 novas variáveis: idade do paciente e índicede massa corpórea (IMC).

A idade do paciente foi calculada pela diferença entre a data de nascimentoe a data do atendimento ambulatorial, chegando assim à idade do paciente no dia doatendimento. Este campo foi depois categorizado nas categorias “criança (0 a 12 anos)”,“adolescente (13 a 19 anos)”, “jovem (20 a 24 anos)”, “adulto (25 a 59 anos)”, e “idoso(acima de 60 anos)”.

O IMC, ou índice de massa corpórea, é um parâmetro adotado pela OrganizaçãoMundial de Saúde (OMS), para calcular o peso ideal de cada pessoa, e o valor do IMC decada pacientes foi utilizado no lugar da altura e do peso do paciente. O seu cálculo é feitopela divisão do peso do paciente pela sua altura ao quadrado.

A base de dados possui uma grande maioria de registros do tipo binário. Sãoinformações que quando preenchidas no sistemas correspondem 1 para “sim” e 0 para“não”. Estes dados são registrados como um série de perguntas das quais as respostasé “sim” ou “não”. A grande maioria dos registros, são dispostos desta forma. Alémdisso, é comum a omissão de informações quando a mesma não é obrigatória, uma vezque os usuários operadores do sistemas de informações tendem a ignorar estas entradas.Desta forma, estas informações vazias foram preenchidas com um caractere de controleque indica que a informação foi omitida na hora do atendimento. Observou-se estanecessidade pois uma determinada característica pode ser importante para o diagnósticoda patologia.

4.2.3 Anonimização de dados

O sigilo de um paciente quanto ao uso de seus dados clínicos é um fator muitoimportante. Assim sendo, a seguir foi realizada a anonimidade dos dados dos pacientes,a fim de que estes pacientes não pudessem ser identificados posteriormente e teremassim informações clinicas de seus atendimentos revelados. Todos os identificadores dospacientes foram retirados e substituídos por outros de controle, gerados aleatoriamente ecompletamente diferentes, tornando assim os dados manipuláveis sem a possibilidade derevelação do sigilo do paciente.

Page 56: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.2 Pré-processamento e transformação de dados 55

4.2.4 Remoção de dados redundantes e inconsistentes e característi-cas descontinuadas

Verificou-se uma quantidade de registros de pacientes que continham duplici-dade no conjunto de dados, além de outras inconsistências, como mais de 50% dos dadosausentes nos registros. No total 7.524 registros foram retirados dos conjunto de dados.Ainda foram encontradas características que possuíam uma forte correlação com algu-mas patologias, como o campo que indica que o paciente tinha DPOC prévia, ou campoque indica a solicitação de autorização de internação hospitalar pelo profissional médico,como a conduta do profissional. Como utilizou-se uma uma abordagem geral (inicial-mente usando as mesmas variáveis para todas as patologias), estas variáveis não fariamsentido estarem presentes no conjunto final e por isso também foram removidas. Tambémforam removidas características que haviam sido descontinuadas em versões recentes dosistema e assim não tinham informações confiáveis, como por exemplo campo de raci-onalidade em saúde, que verifica se o paciente faz uso de medicina tradicional chinesa,homeopatia, fitoterapia que são dados de versões recentes e os registros mais antigos nãotinham estas informações. Também campos que continham práticas integrativas e com-plementares (PICS) que são tratamentos que utilizam recursos terapêuticos baseados emconhecimentos tradicionais, voltados para prevenir doenças. Versões mais recentes nãotinham estas informações e por isso foram removidas.

4.2.5 Amostragem e balanceamento de classes

Como se pode observar na Tabela 4.2, existe um grande diferença na quantidadede casos entre pacientes com internação e sem internação. Desta forma, foi utilizado atécnica de amostragem (sampling) para diminuir o efeito negativo desta diferença sobreos dados. Foi usado a técnica de Random under-sampling na classe majoritária "seminternação", que representam os pacientes com registros ambulatoriais que não tiveraminternações após o registro de atendimento ambulatorial. Em cada experimento realizadoe modelo testado, a técnica foi utilizada para equilibrar as duas classes.

4.2.6 Seleção de características para redução de dimensionalidade

Após a remoção de várias características em outras etapas de pré-processamento,foram também aplicados técnicas de seleção para a redução de dimensionalidade doconjunto de dados. A seleção de recursos é um processo em seleciona automaticamenteos recursos no conjunto de dados que mais contribuem para a variável de previsão. Terrecursos irrelevantes no conjunto de dados pode diminuir a precisão de muitos modelos.Para ajudar nesta etapa utilizou-se do módulo sklearn.feature_selection do python paraimplementar a seleção automatizada de características, redução de dimensionalidade no

Page 57: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.2 Pré-processamento e transformação de dados 56

conjuntos de amostras, para melhorar as pontuações de precisão dos estimadores e paramelhorar o desempenho do algoritmo no conjunto de dados. Na seção 4.4 e explicadocomo é o funcionamento do módulo sklearn.feature_selection.

4.2.7 Características finais para o estudo

Após a fase de processamento e transformação de dados, a quantidade decaracterísticas na base de dados passou para um total de 51 e são apresentadas na Tabela4.3.

Tabela 4.3: Lista de características pré-selecionadas para a pesquisa.

Variável Descrição Valores

faixa_etaria_oms Faixa etária do paciente (1) criança, 0 a 12 anos;

(2) adolescente, 13 a 19 anos;

(3) jovem, 20 a 24 anos;

(4) adulto, 25 a 59 anos;

(5) idoso, acima de 60 anos.

st_frequenta_creche Paciente frequenta escola ou creche

(para o caso de crianças).

(0) Não; (1) Sim.

st_plano_saude_privado Paciente possui outras modalidades de

cuidados em saúde, regulamentadas ou

não.

(0) Não; (1) Sim.

st_deficiencia Paciente possui deficiência física. (0) Não; (1) Sim.

st_defi_intelectual_cognitiva Paciente possui deficiência cognitiva. (0) Não; (1) Sim.

st_gestante Paciente está gravida. (0) Não; (1) Sim.

st_doenca_respiratoria Paciente tem doença respiratória. (0) Não; (1) Sim.

st_doenca_respira_asma Paciente tem asma. (0) Não; (1) Sim.

st_doenca_respira_dpoc_enf Paciente tem DPOC - Doença pulmonar

obstrutiva crônica ou enfisema pulmo-

nar.

(0) Não; (1) Sim.

st_doenca_respira_outra Paciente tem outra doença respiratória. (0) Não; (1) Sim.

st_doenca_respira_n_sabe Paciente não sabe se tem doença respi-

ratória.

(0) Não; (1) Sim.

st_fumante Paciente é fumante. (0) Não; (1) Sim.

st_alcool Paciente está ingerindo bebidas alcoóli-

cas.

(0) Não; (1) Sim.

st_outra_droga Paciente usa drogas. (0) Não; (1) Sim.

st_hipertensao_arterial Paciente tem hipertensão arterial. (0) Não; (1) Sim.

st_diabete Paciente tem diabetes. (0) Não; (1) Sim.

st_avc Paciente já sofreu AVC. (0) Não; (1) Sim.

st_infarto Paciente já teve algum infarto. (0) Não; (1) Sim.

st_tuberculose Paciente tem tuberculose. (0) Não; (1) Sim.

st_cancer Paciente tem câncer. (0) Não; (1) Sim.

st_internacao_12 Paciente teve alguma internação nos úl-

timos 12 meses.

(0) Não; (1) Sim.

st_tratamento_psiquiatra Paciente realiza tratamento psiquiá-

trico.

(0) Não; (1) Sim.

Page 58: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.2 Pré-processamento e transformação de dados 57

Table 4.3 continuação da página anteriorCaracterística Descrição Valores

st_acamado Paciente está acamado na internação

domiciliar.

(0) Não; (1) Sim.

st_domiciliado Paciente está em internação domiciliar. (0) Não; (1) Sim.

st_doenca_cardiaca Paciente tem alguma doença cardíaca. (0) Não; (1) Sim.

st_doenca_card_insuf Paciente tem insuficiência cardíaca. (0) Não; (1) Sim.

st_doenca_card_outro Paciente teve outra doença cardíaca que

não seja insuficiência.

(0) Não; (1) Sim.

st_doenca_card_n_sabe Paciente não sabe se tem doença car-

díaca.

(0) Não; (1) Sim.

st_problema_rins Paciente tem problemas nos rins. (0) Não; (1) Sim.

st_problema_rins_insuf Paciente tem problemas de insuficiência

renal.

(0) Não; (1) Sim.

st_problema_rins_outro Paciente tem outros problemas renais

mas não sabe quais são.

(0) Não; (1) Sim.

st_problema_rins_nao_sabe Paciente tem problemas nos rins. (0) Não; (1) Sim.

co_dim_tipo_condicao_peso Percepção do paciente em relação ao

seu próprio peso.

(1) Abaixo do Peso;

(2) Peso Adequado;

(3) Acima do Peso.

co_ciap Código internacional da atenção primá-

ria do atendimento.

Código da OMS organização mundial

da saúde (OMS).

co_cds_tipo_conduta Conduta/desfecho do atendimento rea-

lizado.

(1) Retorno para consulta agendada;

(2) Retorno para cuidado continu-

ado/programado;

(3) Agendamento para grupos;

(4) Agendamento para nasf;

(5) Alta do episódio;

(6) Encaminhamento interno no dia;

(7) Encaminhamento para serviço espe-

cializado;

(8) Encaminhamento para caps;

(9) Encaminhamento para internação

hospitalar;

(10) Encaminhamento para urgência;

(11) Encaminhamento para serviço de

atenção domiciliar;

(12) Encaminhamento intersetorial.

co_exame Exames solicitados e avaliados. (1) Laboratorial;

(2) Não Laboratorial;

(3) Ambos.

st_solicitado_avaliado0 Exames avaliados e solicitado. (0) Não; (1) Sim.

st_solicitado_avaliadoA Exames avaliados. (0) Não; (1) Sim.

st_solicitado_avaliadoS Exames solicitados. (0) Não; (1) Sim.

qt_parto Quantidade de partos da paciente. Valor (inteiro) de quantos partos a paci-

ente teve.

st_gravidez_planejada Gravidez foi planejada. (0) Não; (1) Sim.

Page 59: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.3 Aprendizado de máquina 58

Table 4.3 continuação da página anteriorCaracterística Descrição Valores

tp_atend Tipo de atendimento realizado no ser-

viço de saúde.

(1) Consulta agendada progra-

mada/cuidado continuado;

(2) Consulta agendada;

(3) Demanda espontânea;

(4) Escuta inicial/orientação;

(5) Consulta no dia;

(6) Atendimento de urgência.

co_sexo Sexo do paciente. (0) Masculino (1) Feminino

imc Índice de Massa Corpórea (IMC). Inteiro, calculado dividindo o peso do

paciente pela sua altura elevada ao qua-

drado.

nu_idade_gestacional Registro com quantas semanas de ges-

tação (caso grávida) a mulher se encon-

tra em semanas.

Número (inteiro) de semanas de gesta-

ção.

st_vacina_em_dia Situação das vacinas obrigatórias. (0) Não esta com a carteira de vacina

em dias, ou seja possui vacinas penden-

tes.

(1) Está com a carteira de vacina em

dias, com todas as vacinas.

co_cid10 código do CID-10 de outras doenças

que o paciente apresenta.

Código do CID Secundário.

co_cid10_2 código do CID-10 de outras doenças

que o paciente apresenta.

Código do CID Secundário.

co_local_atend Local de atendimento do usuário. (1) Unidade Básica de Saúde;

(2) Unidade Móvel;

(3) Rua;

(4) Domicílio;

(5) Escola/Creche;

(6) Outros;

(7) Polo-Academia da Saúde;

(8) Instituição/Abrigo;

(9) Unidade prisional ou congêneres;

(10) Unidade socioeducativa.

co_raca_cor Raça autodeclarada. (1) Branca;

(2) Preta;

(3) Parda;

(4) Amarela;

(5) Indígena.

nu_cbo_2002 Código da Classificação Brasileira de

Ocupações (CBO) do profissional.

Código (inteiro) CBO.

4.3 Aprendizado de máquina

De acordo com os objetivos expostos na Seção 1.3.2, e tendo em vista que sãotécnicas muito difundidas e experimentadas na área da medicina preditiva, e conforme

Page 60: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.3 Aprendizado de máquina 59

pode ser visto na revisão bibliográfica, os classificadores que serão foco dos experimentospara geração dos modelos, são os seguintes:

• Rede Neural Perceptron Multicamadas (MLP)• Máquinas de Vetores de Suporte (SVM)• Rede Naïve Bayes• Árvore de Decisão

A Figura 4.3 apresenta a metodologia usada no processo de treinamento e testedos modelos gerados pelos algoritmos.

Figura 4.3: Metodologia para geração e avaliação dos modelos. FONTE: Produzida pelo

autor (2019).

Primeiramente, o conjunto de dados foi dividido aleatoriamente em conjunto detreinamento e conjunto de teste na proporção de 70/30: 70% dos dados separados para ageração dos modelos pelos algoritmos de aprendizado, e 30% dos dados separados paraa avaliação dos modelos gerados usando as métricas Acurácia e Área sob a Curva ROC(AUC ROC).

Na fase de treinamento, foi realizado o processo de Tuning para a seleção dosmelhores parâmetros de cada algoritmo de aprendizado. Esta seleção de parâmetros foirealizada através de validação cruzada (5-fold cross-validation) apenas no conjunto detreinamento. Os valores dos parâmetros testados para cada um dos algoritmos estãolistados na Tabela 4.4.

Page 61: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.4 Linguagens e bibliotecas 60

Tabela 4.4: Parâmetros testados pelo GridSearchAlgoritmo Parâmetro Valores testadosMLP activation [’identity’,’logistic,‘tanh’, ‘relu’]

hiddenlayersizes [[1,1,1],[2,2,2],[3,3,3],[4,4,4],[5,5,5],[6,6,6],[7,7,7],[8,8,8],[9,9,9],[10,10,10],[11,11,11]]

SVM kernel [’rbf’,’linear’,’sigmoid’,’poly’]C [0.001, 0.01, 0.1, 1, 10,100]gamma [0.001, 0.01, 0.1, 1, 10,100]degree [1,3,5,4,5,6,7,8,9,10]

Árvore de Decisão criterion [’gini’,’entropy’]splitter [’best’, ’random’]max_depth [1,2,3,4,5,10,20,30]min_samples_split [2,3,4,5]

Os modelos gerados utilizando os melhores parâmetros encontrados na fasede Tuning foram então avaliados no conjunto de teste que, cabe ressaltar, em nenhummomento foi utilizado no treinamento e geração destes modelos.

A fim de evitar um possível enviesamento na divisão dos conjuntos de treina-mento e teste (mesmo que feito de forma aleatória), e também para buscar diminuir avariância dos resultados, o processo descrito acima foi realizado 10 vezes. Assim, o re-sultado final reportado no Capítulo 5 refere-se à média das acurácias e AUC ROC destas10 execuções, com seus respectivos desvios padrões.

4.4 Linguagens e bibliotecas

Os modelos propostos nesta pesquisa foram implementados na linguagemPython utilizando a biblioteca scikit-learn.

A scikit-learn é uma biblioteca de aprendizado de máquina de código aberto paraa linguagem de programação Python, onde inclui uma vasta quantidade de algoritmos declassificação, regressão e agrupamento. O scikit-learn foi utilizado em conjunto com alinguagem Python e outras bibliotecas científicas: NumPy é um pacote em linguagemPython com suporte a trabalhos com arrays e matrizes multidimensionais, e que possuiuma grande coleção de funções matemáticas; Pandas é uma biblioteca em linguagem deprogramação Python para manipulação e análise de dados, oferecendo grande suporte atrabalhos com operações de dados com manipulação de tabelas numéricas e séries tempo-rais; Matplotlib é uma biblioteca de plotagem em linguagem Python e ela fornece suportepara plotagem de gráficos; Seaborn é uma biblioteca de visualização de dados Pythonbaseada no matplotlib e ela fornece uma interface de alto nível para plotagem de gráficosestatísticos; Plotly é uma biblioteca de gráficos Python que cria gráficos interativos comqualidade, como gráficos de linhas, dispersão, área, etc.; GridSearchCV que é um estima-

Page 62: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

4.5 Considerações finais 61

dor utilizado para busca dentro de uma série de valores, os que desempenham o melhorajuste e pontuação, para uma base de dados em questão.

O sklearn também contém vários tipos de estimadores, ou seja, regras para cal-cular hipóteses (estimativas) em um determinado conjunto de dados baseado em obser-vações. Um desses estimadores faz a seleção de características baseado em florestas efoi aplicado o estimador ExtraTreesClassifier baseado em florestas, usando para isso opacote sklearn.ensemble.ExtraTreesClassifier para calcular as importâncias de caracte-rísticas, que por sua vez descarta características irrelevantes ao ser combinado com otransformador sklearn.feature_selection.SelectFromModel.

A classe sklearn.ensemble.ExtraTreesClassifier implementa um meta-estimadorque se encaixa em várias árvores de decisão aleatórias, em várias subamostras do con-junto de dados e usa a média para melhorar a precisão preditiva e controlar a adaptaçãoexcessiva. A técnica ao ser aplicada, calcula um percentual de relevância da característica,para explicar a variável dependente e vai gerar uma classificação baseada na importânciada característica (feature_importances_) sendo que quanto maior o valor, mais importanteo recurso. Após o processamento, o algoritmo vai selecionar os atributos mais relevantes.Apenas atributos com feature_importances_ maior que zero foram utilizados na constru-ção de modelos. O SelectFromModel seleciona por padrão as características cuja impor-tância é maior que a importância média de todos as características, esse limite pode seralterado, porém para esta pesquisa foi utilizado o parâmetro padrão.

Os modelos foram testados em uma Virtual Machine Debian GNU/Linux eutilizando o ambiente computacional web, Jupyter Notebook que é uma interface desoftware de código aberto, para criação de documentos em linguagem de programaçãoconstruída sobre algumas bibliotecas open-source, como o IPython, mas pode conectar anúcleos de diferentes linguagens de programação, como o R, Julia, Ruby, Scala e Haskell(atualmente, são suportadas mais de 40 linguagens de programação).

4.5 Considerações finais

Este capítulo teve por objetivo expor a metodologia utilizada nesta pesquisa.Primeiramente foi feita uma descrição detalhada dos dados da pesquisa, mostrando aorigem dos registros nos bancos de dados, o tamanho dos conjuntos de dados gerados e astécnicas de pré-processamento. Em seguida foram apresentadas as etapas de descobertade conhecimentos em bancos de dados detalhando cada um dos processos utilizados e assoluções encontradas para o tratamento dos dados até a criação dos conjuntos de dadospara utilização dos modelos. Por último foram apresentadas as linguagens e bibliotecasutilizadas para a seleção, pré-processamento e a realização dos experimentos da pesquisa.

No Capítulo 5, são demonstrados os resultados da pesquisa e os valores obtidosde acordo com os critérios de avaliação anteriormente citados.

Page 63: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 5Resultados

Neste capítulo serão apresentados os resultados dos experimentos. A saber, asvariáveis mais representativas de cada modelo e patologia, parâmetros e a interpretabi-lidade dos modelos experimentados, além dos resultados para cada grupo de patologiaestudado neste trabalho.

5.1 Infecção do trato urinário

Os seguintes resultados demonstrados na Tabela 5.1 consolidam os resultadosdos experimentos para Infecção do trato urinário de localização não especificada, ondepode-se verificar o desempenho das 4 técnicas de aprendizado de máquina, usando ocritério de avaliação acurácia e AUC ROC para classificação.

Tabela 5.1: Média (desvio padrão) dos resultados obtidos por cada classificador nosconjuntos de testes para infecção do trato urinário de localização não especificada

Árvore Decisão SVM MLP Naïve Bayes

Acurácia 0,82 (<0,0001) 0,81 (<0,0001) 0,80 (±0,01) 0,61 (<0,0001)

AUC ROC 0,86 (<0,0001) 0,87 (<0,0001) 0,87 (±0,01) 0,71 (±0,01)

Na Figura 5.1 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação porinfecção do trato urinário de localização não especificada.

Page 64: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.1 Infecção do trato urinário 63

Figura 5.1: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.2 e na Figura A.1 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.2: Parâmetros mais utilizados para ITU.Árvore de Decisão SVM MLP

criterion=entropy kernel=poly activation=logistic

max_depth=20 C=0.1 hidden_layer_sizes=[11, 11, 11]

min_samples_split=5 degreee=3

splitter=random gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.1. Para o algoritmo SVM pode ser verificado na Apêndice A.2.Para o algoritmo MLP pode ser verificado na Apêndice A.3. Para o algoritmo Naïve Bayespraticamente não existem parâmetros a serem testados, por isso foram realizados os 10repetições com os valores padrão.

Para o grupo de patologias de infecção do trato urinário de localização nãoespecificada, foram selecionadas através da técnica de seleção de características baseado

Page 65: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.2 Insuficiência cardíaca não especificada 64

em florestas um total de 14 características, na qual os 4 algoritmos foram treinados. Estascaracterísticas se destacaram em importância para o modelo durante o processo de seleçãode variáveis:

1. Faixa etária da idade;2. Qual é a percepção do usuário em relação ao seu próprio peso;3. Código internacional da atenção primária do atendimento;4. Raça autodeclarada do indivíduo;5. Conduta/desfecho do atendimento realizado;6. Atendimento realizado ao usuário do serviço de saúde;7. Classificação brasileira de ocupações (CBO) do profissional;8. Paciente teve alguma internação nos últimos 12 meses;9. Os exames solicitados e avaliados; Paciente tem hipertensão arterial;

10. Paciente está fumante;11. Paciente tem diabetes;12. Cidadão frequenta ou não escola ou creche (para o caso de crianças);13. Registro com quantas semanas de gestação (caso grávida) a mulher se encontra em

semanas;14. Índice de massa corpórea; Sexo do paciente.

5.2 Insuficiência cardíaca não especificada

Os seguintes resultados demonstrados na Apêndice 5.3 consolidam os resultadosdos experimentos para insuficiência cardíaca não especificada, onde pode-se verificar odesempenho das 4 técnicas de aprendizado de máquina, usando o critério de avaliaçãoacurácia e AUC ROC para classificação.

Tabela 5.3: Experimentos com conjunto de testes para insuficiência cardíaca não especi-ficada

Árvore Decisão SVM MLP Naïve Bayes

Acurácia 0,86 (± 0,01) 0,86 (<0,0001) 0,84 (± 0,01) 0,70 (<0,0001)

AUC ROC 0,91 (± 0,01) 0,92 (<0,0001) 0,91 (± 0,01) 0,80 (± 0,01)

Na Figura 5.2 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação porinsuficiência cardíaca não especificada.

Page 66: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.2 Insuficiência cardíaca não especificada 65

Figura 5.2: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.4 e na Figura A.2 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.4: Parâmetros mais utilizados para IC.Árvore de Decisão SVM MLP

criterion=entropy kernel=poly activation=logistic

max_depth=20 C=0.1 hidden_layer_sizes=[11, 11, 11]

min_samples_split=5 degreee=3

splitter=best gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.4. Para o algoritmo SVM pode ser verificado na Apêndice A.5.Para o algoritmo MLP pode ser verificado na Apêndice A.6. Para o algoritmo Naïve Bayespraticamente não existem parâmetros a serem testados, por isso foram realizados os 10repetições com os valores padrão.

Para o grupo de patologias de insuficiência cardíaca não especificada, foramselecionadas através da técnica de seleção de características baseado em florestas um

Page 67: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.3 Diabetes mellitus 66

total de 22 características, na qual os 4 algoritmos foram treinados. Estas característicasse destacaram em importância para o modelo durante o processo de seleção de variáveis:

1. Raça autodeclarada do indivíduo;2. A percepção do usuário em relação ao seu próprio peso;3. Código internacional da atenção primária do atendimento;4. Paciente tem diabetes;5. Conduta/desfecho do atendimento realizado;6. Sexo do paciente;7. Paciente tem alguma doença cardíaca;8. Classificação brasileira de ocupações (CBO) do profissional;9. Paciente já teve algum infarto;

10. Paciente teve outra doença cardíaca que não seja insuficiência;11. Paciente está fumante;12. Atendimento realizado ao usuário do serviço de saúde;13. CID-10 secundário” utilizado para registro de outras doenças que o cidadão apre-

senta;14. Paciente tem outra doença respiratória;15. Paciente já sofreu AVC;16. Os exames solicitados e avaliados;17. Paciente tem outros problemas renais mas não sabe quais são;18. Paciente tem problemas nos rins;19. Exames avaliados;20. Exames solicitados;21. Cidadão com outras modalidades de cuidados em saúde, regulamentadas ou não;22. Índice de massa corpórea.

5.3 Diabetes mellitus

Os seguintes resultados demonstrados na Tabela 5.5 consolidam os resultadosdos experimentos para diabetes mellitus, onde pode-se verificar o desempenho das 4técnicas de aprendizado de máquina, usando o critério de avaliação acurácia e AUC ROCpara classificação.

Tabela 5.5: Experimentos com conjunto de testes para diabetes mellitusÁrvore Decisão SVM MLP Naïve Bayes

Acurácia 0,87 (± 0,01) 0,84 (<0,0001) 0,86 (± 0,01) 0,62 (± 0,03)

AUC ROC 0,90 (± 0,01) 0,92 (<0,0001) 0,92 (± 0,01) 0,84 (± 0,01)

Page 68: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.3 Diabetes mellitus 67

Na Figura 5.3 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação pordiabetes mellitus.

Figura 5.3: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.6 e na Figura A.3 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.6: Parâmetros mais utilizados para DM.Árvore de Decisão SVM MLP

criterion=gini kernel=poly activation=logistic

max_depth=20 C=0.1 hidden_layer_sizes=[11, 11, 11]

min_samples_split=5 degreee=3

splitter=best gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.7. Para o algoritmo SVM pode ser verificado na Apêndice A.8.Para o algoritmo MLP pode ser verificado na Apêndice A.9. Para o algoritmo Naïve Bayes

Page 69: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.4 Bronquite não especificada 68

praticamente não existem parâmetros a serem testados, por isso foram realizados os 10repetições com os valores padrão.

Para o grupo de patologias de diabetes mellitus, foram selecionadas através datécnica de seleção de características baseado em florestas um total de 16 características, naqual os 4 algoritmos foram treinados. Estas características se destacaram em importânciapara o modelo durante o processo de seleção de variáveis:

1. Qual é a percepção do usuário em relação ao seu próprio peso;2. Faixa etária da idade;3. Sexo do paciente;4. Raça autodeclarada do indivíduo;5. Paciente tem diabetes;6. Paciente tem hipertensão arterial;7. Paciente está ingerindo bebidas alcoólicas;8. Paciente quanto a internação domiciliar;9. Paciente tem problemas nos rins;

10. Classificação brasileira de ocupações (CBO) do profissional;11. Código internacional da atenção primária do atendimento;12. Atendimento realizado ao usuário do serviço de saúde;13. Conduta/desfecho do atendimento realizado;14. Os exames solicitados e avaliados;15. Paciente teve alguma internação nos últimos 12 meses;16. Índice de Massa Corpórea.

5.4 Bronquite não especificada

Os seguintes resultados demonstrados na Tabela 5.7 consolidam os resultadosdos experimentos para bronquite não especificada, onde pode-se verificar o desempenhodas 4 técnicas de aprendizado de máquina, usando o critério de avaliação acurácia e AUCROC para classificação.

Tabela 5.7: Experimentos com conjunto de testes para bronquite não especificadaÁrvore Decisão SVM MLP Naïve Bayes

Acurácia 0,80 (± 0,01) 0,86 (± 0,01) 0,73 (± 0,13) 0,67 (± 0,01)

AUC ROC 0,85 (± 0,01) 0,92 (<0,0001) 0,81 (± 0,10) 0,80 (± 0,01)

Na Figura 5.4 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação porbronquite não especificada.

Page 70: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.4 Bronquite não especificada 69

Figura 5.4: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.8 e na Figura A.4 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.8: Parâmetros mais utilizados para BNE.Árvore de Decisão SVM MLP

criterion=entropy kernel=poly activation=logistic

max_depth=20 C=0.1 hidden_layer_sizes=[9, 9, 9]

min_samples_split=5 degreee=3

splitter=random gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.10. Para o algoritmo SVM pode ser verificado na ApêndiceA.11. Para o algoritmo MLP pode ser verificado na Apêndice A.12. Para o algoritmoNaïve Bayes praticamente não existem parâmetros a serem testados, por isso foramrealizados os 10 repetições com os valores padrão.

Para o grupo de patologias de bronquite não especificada, foram selecionadasatravés da técnica de seleção de características baseado em florestas um total de 17 carac-

Page 71: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.5 Hipertensão essencial 70

terísticas, na qual os 4 algoritmos foram treinados. Estas características se destacaram emimportância para o modelo durante o processo de seleção de variáveis:

1. Código internacional da atenção primária do atendimento;2. Conduta/desfecho do atendimento realizado;3. Classificação brasileira de ocupações (CBO) do profissional;4. Atendimento realizado ao usuário do serviço de saúde;5. Paciente tem hipertensão arterial;6. Paciente tem outra doença respiratória;7. Paciente já teve algum infarto;8. Sexo do paciente;9. Os exames solicitados e avaliados;

10. Paciente tem diabetes;11. Índice de massa corpórea;12. Paciente está ingerindo bebidas alcoólicas;13. Paciente tem outra doença respiratória;14. Exames solicitados;15. CID-10 secundário utilizado para registro de outras doenças que o cidadão apre-

senta;16. Paciente está gravida;17. Local de atendimento do usuário.

5.5 Hipertensão essencial

Os seguintes resultados demonstrados na Tabela 5.9 consolidam os resultadosdos experimentos para hipertensão essencial, onde pode-se verificar o desempenho das 4técnicas de aprendizado de máquina, usando o critério de avaliação acurácia e AUC ROCpara classificação.

Tabela 5.9: Experimentos com conjunto de testes para hipertensão essencialÁrvore Decisão SVM MLP Naïve Bayes

Acurácia 0,91 (± 0,01) 0,92 (± 0,01) 0,92 (± 0,01) 0,70 (± 0,02)

AUC ROC 0,94 (± 0,01) 0,97 (<0,0001) 0,95 (± 0,02) 0,84 (<0,0001)

Na Figura 5.5 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação porhipertensão essencial.

Page 72: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.5 Hipertensão essencial 71

Figura 5.5: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.10 e na Figura A.5 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.10: Parâmetros mais utilizados para HE.Árvore de Decisão SVM MLP

criterion=entropy e gini kernel=poly activation=logistic

max_depth=20 C=0.1 hidden_layer_sizes=[10, 10, 10]

min_samples_split=5 degreee=3

splitter=best gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.13. Para o algoritmo SVM pode ser verificado na ApêndiceA.14. Para o algoritmo MLP pode ser verificado na Apêndice A.15. Para o algoritmoNaïve Bayes praticamente não existem parâmetros a serem testados, por isso foramrealizados os 10 repetições com os valores padrão.

Para o grupo de patologias de hipertensão essencial, foram selecionadas atravésda técnica de seleção de características baseado em florestas um total de 18 caracterís-

Page 73: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.6 Doença pulmonar obstrutiva crônica 72

ticas, na qual os 4 algoritmos foram treinados. Estas características se destacaram emimportância para o modelo durante o processo de seleção de variáveis:

1. Paciente tem diabetes;2. Faixa etária da idade;3. Raça autodeclarada do indivíduo;4. Qual é a percepção do usuário em relação ao seu próprio peso;5. Paciente tem hipertensão arterial;6. Paciente tem alguma doença cardíaca;7. Classificação brasileira de ocupações (CBO) do profissional;8. Sexo do paciente;9. Paciente está fumante;

10. Atendimento realizado ao usuário do serviço de saúde;11. Código internacional da atenção primária do atendimento;12. Paciente teve alguma internação nos últimos 12 meses;13. Conduta/desfecho do atendimento realizado;14. Paciente teve outra doença cardíaca que não seja insuficiência;15. Paciente já sofreu AVC;16. Os exames solicitados e avaliados;17. CID-10 secundário utilizado para registro de outras doenças;18. Local de atendimento do usuário.

5.6 Doença pulmonar obstrutiva crônica

Os seguintes resultados demonstrados na Tabela 5.11 consolidam os resultadosdos experimentos para doença pulmonar obstrutiva crônica, onde pode-se verificar odesempenho das 4 técnicas de aprendizado de máquina, usando o critério de avaliaçãoacurácia e AUC ROC para classificação.

Tabela 5.11: Experimentos com conjunto de testes para doença pulmonar obstrutivacrônica

Árvore Decisão SVM MLP Naïve Bayes

Acurácia 0,79 (± 0,01) 0,81 (± 0,01) 0,71 (± 0,11) 0,60 (± 0,01)

AUC ROC 0,85 (<0,0001) 0,88 (± 0,01) 0,79 (± 0,04) 0,77 (<0,0001)

Na Figura 5.6 podemos verificar a plotagem da curva ROC e AUC para osexperimentos utilizando as 4 técnicas de aprendizado de máquina para a internação pordoença pulmonar obstrutiva crônica.

Page 74: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.6 Doença pulmonar obstrutiva crônica 73

Figura 5.6: AUC ROC para infecção do trato urinário de localização não especificada.

FONTE: Produzida pelo autor (2019).

Os parâmetros mais comuns durante as 10 repetições com as técnicas de apren-dizado de máquina, podem ser vistos na Tabela 5.12 e na Figura A.6 podemos verificar aplotagem da curva ROC e AUC para as 10 repetições.

Tabela 5.12: Parâmetros mais utilizados para DPOC.Árvore de Decisão SVM MLPcriterion=gini e gini kernel=poly activation=logisticmax_depth=20 C=0.1 hidden_layer_sizes=[11, 11, 11]min_samples_split=5 degreee=3splitter=best gamma=0.1

Os parâmetros de cada repetição para algoritmo de árvores de decisão pode serverificado na Apêndice A.16. Para o algoritmo SVM pode ser verificado na ApêndiceA.17. Para o algoritmo MLP pode ser verificado na Apêndice A.18. Para o algoritmoNaïve Bayes praticamente não existem parâmetros a serem testados, por isso foramrealizados os 10 repetições com os valores padrão.

Para o grupo de patologias de doença pulmonar obstrutiva crônica, foram sele-cionadas através da técnica de seleção de características baseado em florestas um total de16 características, na qual os 4 algoritmos foram treinados. Estas características são:

Page 75: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

5.7 Considerações finais 74

1. Código internacional da atenção primária do atendimento;2. Conduta/desfecho do atendimento realizado;3. Os exames solicitados e avaliados;4. Classificação brasileira de ocupações (CBO) do profissional;5. Atendimento realizado ao usuário do serviço de saúde;6. Paciente está fumante;7. Índice de massa corpórea;8. Sexo do paciente;9. Paciente já sofreu AVC;

10. Paciente teve outra doença cardíaca que não seja insuficiência;11. Paciente tem alguma doença cardíaca;12. Paciente teve alguma internação nos últimos 12 meses;13. Exames avaliados;14. Exames solicitados;15. Cidadão com outras modalidades de cuidados em saúde, regulamentadas ou não;16. Local de atendimento do usuário.

5.7 Considerações finais

Este capítulo teve por objetivo apresentar os resultados das 4 técnicas de aprendi-zado de máquina aplicadas as patologias selecionadas no estudo. Primeiro visualiza-se osresultados e são expressas as tabelas de acurácia e AUC ROC com os respectivos métricas.Também foram plotados os gráficos de curva ROC e os valores de AUC para cada um dosexperimentos testados, realizando uma comparação entre as técnicas para cada patologia.O capítulo segue apresentando os principais parâmetros selecionados no processo tuningpelos algoritmos em cadas um das 10 repetições, para em seguida expor as principaiscaracterísticas que se destacaram como as mais relevantes de cada um dos modelos.

No Capítulo 6 a seguir são expressas as discussões e considerações principaisreferente aos resultados alcançados.

Page 76: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 6Discussão

A execução da metodologia apresentada no Capítulo 4 produziu vários modelosde aprendizado de máquina. Estes modelos apresentaram resultados com potencial para apredição de internações hospitalares por condições sensíveis a atenção básica.

Conforme é possível observar na Tabela 5.1 para as internações por infecção dotrato urinário de localização não especificada a técnica que obteve a melhor acuráciade 0,82 (<0,0001) foi a Decision Tree, porém a técnica que obteve o melhor valor deAUC ROC de 0,87 ( 0,01) foi o Multilayer Perceptron.

Na Tabela 5.3 podemos observar que as internações por insuficiência cardíacanão especifica dois modelos tiveram a mesma acurácia, 0,86 ( 0,01) gerado pela DecisionTree e 0,86 (<0,0001) gerado pelo Support Vector Machine, porém o Support VectorMachine (SVM) alcançou o maior valor de AUC ROC de 0,92 (<0,0001) e enquanto oSupport Vector Machine) e o Multilayer Perceptron tiveram AUC ROC 0,91 ( 0,01) e0,91 ( 0,01) respectivamente.

Nas internações por diabetes mellitus o algoritmo de melhor desempenho con-forme exposto na Tabela 5.5 também foi o Decision Tree) com valor de 0,87 ( 0,01)com valores de AUC ROC de 0,90 ( 0,01). Porém os valores de AUC ROC do SupportVector Machine e do Multilayer Perceptron chegaram a 0,92 (<0,0001) e 0,92 ( 0,01)respectivamente.

As internações por bronquite não especificada, conforme visto na Tabela 5.7teve sua melhor acurácia de 0,86 ( 0,01) com os modelos com Support Vector Machine,que também alcançou o maior valor de AUC ROC de 0,92 (<0,0001).

Já na Tabela 5.9 observa-se que nas internações por Hipertensão essencial astécnicas Support Vector Machine e do Multilayer Perceptron conseguiram as acurácias de0,82 ( 0,01) e 0,92 ( 0,01) respectivamente. Já os valores de AUC ROC o melhor desem-

Page 77: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

6.1 Considerações finais 76

penho foi o Support Vector Machine com os valores de AUC ROC de 0,97 (<0,0001).

E por fim, na Tabela 5.11 as internações por doença pulmonar obstrutivacrônica obteve a melhor acurácia 0,81 ( 0,01) com o uso do modelo com Support VectorMachine com o melhor valor de AUC ROC 0,88 ( 0,01).

De forma geral, na grande maioria dos experimentos o algoritmo de SupportVector Machine teve um desempenho um pouco superior, de forma que o algoritmo con-segue criar modelos com grande percentual de acertos em todas as patologias testadas.Mesmo com valores percentuais não muito superiores em relação ao Multilayer Percep-tron e a Árvore de Decisão, é possível notar que o algoritmo converge muito bem comos conjuntos de dados, gerando boas pontuações em praticamente todos os experimentos,graças ao fato do processo de tuning conseguir selecionar bons parâmetros de ajustespara o algoritmo e pelo processo de seleção automática de variáveis que consegue extrairaquelas mais significantes para patologia em questão.

A hipertensão essencial foi a doença que obteve as melhores pontuações de pre-cisão quando comparados em conjunto a acurácia e a AUC ROC, com valores superioresa 90%. Pacientes de doenças crônicas, tendem a frequentar mais a atenção básica embusca de atendimentos ambulatoriais, pois necessitam de um maior controle da doença.Isso pode explicar porque outras doenças igualmente crônicas como diabetes mellitus einsuficiência cardíaca também tiveram bons resultados nos modelos gerados, pois deter-minadas características podem facilitar a previsão de internações destes pacientes. Valeressaltar que no conjunto de dados estudado a hipertensão essencial era a patologia coma segunda maior quantidade de dados, o que poderia ter ajudado na criação dos modelos.

6.1 Considerações finais

Este capítulo tem por objetivo apresentar, a partir das discussões e observaçõessobre os resultados obtidos das 4 técnicas de aprendizado de máquina abordados nestapesquisa.

No Capítulo 7 são expostos os conclusões deste estudo, apresentando alguns dospassos futuros para a continuação da pesquisa.

Page 78: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

CAPÍTULO 7Conclusão

A hospitalização por ICSAB é uma questão importante de preocupação paraos sistemas de saúde do mundo todo. Quando lida-se com pacientes de alto risco,incluindo aqueles com doenças graves e complicações, os custos esperados mais quedobraram. Taxas de readmissões hospitalares específicas são consideradas um indicadordo desempenho hospitalar e geram interesse público em relação à qualidade da atenção àsaúde.

De forma geral, as técnicas clássicas de aprendizado de máquina são as maisestudadas nas pesquisas na área da saúde de previsões de internações, conforme vimosno Seção 2.2, porém sempre se buscam a aplicação destas técnicas em bases de dadosdiferentes. Este trabalho buscou os dados em um sistema de prontuário eletrônico emprodução, e verificou que as técnicas aqui estudadas são promissoras.

Os resultados da análise feita no Capítulo 5 reforça que as técnicas de aprendi-zado de máquina podem fornecer modelos de previsões com melhores resultados, suge-rindo que a exploração de mais de uma técnica é possível uma evolução dos resultados,e permite a escolha de uma modelo que melhor representa o conjunto de dados, pois téc-nicas diferentes alcançam resultados bem significativos dependendo do domínio que elasestão processando.

7.1 Trabalhos Futuros

Os resultados alcançados até aqui, e a evolução do processo de trabalho reforçama ideia de que não só a exploração de várias técnicas, como também a exploração dejanelas temporais, podem ser importantes para melhorar as previsões e alcançar resultadosque possibilitem prever as internações em tempo razoáveis com 30, 60 ou 180 dias deantecedência do evento de internação, podendo ter tempo hábil para tratar e evitar ahospitalização. Portanto como trabalhos futuros propõe-se explorar os conjunto de dadosestabelecendo várias janelas temporais, eliminando os registros mais recentes a fim deprever as internações com antecedência.

Também propõe se como trabalho futuro realizar a validação dos resultadosda pesquisa, selecionando dados mais atualizados nos sistemas de produção e após os

Page 79: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

7.1 Trabalhos Futuros 78

resultados, acompanhar os pacientes afim de validar se os mesmos realmente irão sofrerinternações hospitalares pelas patologias apresentadas com a separação de um grupo depacientes para controle.

Page 80: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas

[1] Ms / secretaria de atenção à saúde - portaria no 221, de 17 de abril

de 2008. http://bvsms.saude.gov.br/bvs/saudelegis/sas/2008/prt0221_

17_04_2008.html, 04 2008.

Acessado em: 14/07/2018 23:30.

[2] Who - international classification of diseases, 11th revision (icd-11). http:

//www.who.int/classifications/icd/en/#, 2018. (Acessado em: 14/07/2018

13:34).

[3] ALFRADIQUE, M. E.; BONOLO, P. D. F. A.; DOURADO, I. A.; LIMA-COSTA, M. F.;

MACINKO, J.; MENDONÃ, C. S.; OLIVEIRA, V. B.; SAMPAIO, L. A.-S. F. R.; SIMONI,

C. D.; TURCI, M. A. InternaçÃpor condiçÃsensÃveis à atençÃprimária:

a construçÃda lista brasileira como ferramenta para medir o desempenho do

sistema de saÃ(Projeto ICSAP - Brasil). Cadernos de SaÃPÃ, 25:1337 – 1349, 06

2009.

[4] ALFRADIQUE, M. E.; BONOLO, P. D. F.; DOURADO, I.; LIMA-COSTA, M. F.; MACINKO,

J.; MENDONÇA, C. S.; OLIVEIRA, V. B.; SAMPAIO, L. F. R.; SIMONI, C. D.; TURCI,

M. A. Ambulatory care sensitive hospitalizations: elaboration of brazilian list as

a tool for measuring health system performance (project icsap-brazil). Cadernos

de saude publica, 25(6):1337–1349, 2009.

[5] ALGHAMDI, M.; AL-MALLAH, M.; KETEYIAN, S.; BRAWNER, C.; EHRMAN, J.; SAKR,

S. Predicting diabetes mellitus using SMOTE and ensemble machine lear-

ning approach: The Henry Ford ExercIse Testing (FIT) project. PLoS ONE,

12(7):e0179805, 2017.

[6] AWAN, S. E.; BENNAMOUN, M.; SOHEL, F.; SANFILIPPO, F. M.; DWIVEDI, G. Ma-

chine learning-based prediction of heart failure readmission or death: implica-

tions of choosing the right model and the right metrics. ESC Heart Fail, 6(2):428–

435, Apr 2019.

[7] BARBOSA, E. J. M.; LANCLUS, M.; VOS, W.; VAN HOLSBEKE, C.; DE BACKER, W.;

DE BACKER, J.; LEE, J. Machine Learning Algorithms Utilizing Quantitative

Page 81: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas 80

CT Features May Predict Eventual Onset of Bronchiolitis Obliterans Syndrome

After Lung Transplantation. Acad Radiol, 25(9):1201–1212, 09 2018.

[8] BEN-GAL, I. Bayesian networks. Encyclopedia of statistics in quality and reliability,

1, 2008.

[9] BERTSIMAS, D.; DUNN, J.; LI, M.; ZHUO, D.; ESTRADA, C.; NELSON, C.;

SCOTT WANG, H.-H. Targeted workup after initial febrile urinary tract infection:

Using a novel machine learning model to identify children most likely to benefit

from vcug. Journal of Urology, 02 2019.

[10] BILLINGS, J.; ZEITEL, L.; LUKOMNIK, J.; CAREY, T. S.; BLANK, A. E.; NEWMAN, L.

Impact of socioeconomic status on hospital use in new york city. Health affairs,

12(1):162–173, 1993.

[11] BRACHMAN, R.; ANAND, T. The Process of Knowledge Discovery in Databases:

A Human-Centered Approach. In Advances in Knowledge Discovery and Data

Mining. AAAI Press., eds. u. edition, 1996.

[12] BRAGA, A. C. Curvas roc: aspectos funcionais e aplicações. 01 2000.

[13] BRISIMI, T. S.; XU, T.; WANG, T.; DAI, W.; PASCHALIDIS, I. C. Predicting diabetes-

related hospitalizations based on electronic health records. Stat Methods Med

Res, p. 962280218810911, Nov 2018.

[14] CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, 20(3):273–

297, Sep 1995.

[15] DAGHISTANI, T. A.; ELSHAWI, R.; SAKR, S.; AHMED, A. M.; AL-THWAYEE, A.; AL-

MALLAH, M. H. Predictors of in-hospital length of stay among cardiac patients:

A machine learning approach. Int. J. Cardiol., Jan 2019.

[16] DE ESTUDOS DE SAÚDE SUPLEMENTAR, I. I. Despesa assistencial avança mais de

50% apesar da queda de beneficiários. https://www.iess.org.br/?p=blog&

id=911, 2018. (Accessed on 05/24/2019).

[17] DE ESTUDOS DE SAÚDE SUPLEMENTAR, I. I. Setor mostra preocupação com

modelos de pagamento. https://www.iess.org.br/?p=blog&id=762, 2018.

(Accessed on 05/24/2019).

[18] DE ESTUDOS DE SAÚDE SUPLEMENTAR, I. I. Variação de custos médico-

hospitalares. https://www.iess.org.br/cms/rep/VCMH_mar_18.pdf, Out

2018. (Accessed on 05/24/2019).

Page 82: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas 81

[19] DESIKAN, P.; SRIVASTAVA, N.; WINDEN, T.; LINDQUIST, T.; BRITT, H.; SRIVASTAVA,

J. Early prediction of potentially preventable events in ambulatory care sensi-

tive admissions from clinical data. In: Healthcare Informatics, Imaging and Sys-

tems Biology (HISB), 2012 IEEE Second International Conference on, p. 124–124.

IEEE, 2012.

[20] DIAS, A.; GORZELNIAK, L.; SCHULTZ, K.; WITTMANN, M.; RUDNIK, J.; JORRES,

R.; HORSCH, A. Classification of exacerbation episodes in chronic obstructive

pulmonary disease patients. Methods Inf Med, 53(2):108–114, 2014.

[21] DUTTA, D.; PAUL, D.; GHOSH, P. Analysing feature importances for diabetes

prediction using machine learning. In: 2018 IEEE 9th Annual Information Tech-

nology, Electronics and Mobile Communication Conference (IEMCON), p. 924–928,

Nov 2018.

[22] FARUQUE, M. F.; ASADUZZAMAN.; SARKER, I. H. Performance analysis of ma-

chine learning techniques to predict diabetes mellitus. In: 2019 International

Conference on Electrical, Computer and Communication Engineering (ECCE), p. 1–

4, Feb 2019.

[23] GOLAS, S. B.; SHIBAHARA, T.; AGBOOLA, S.; OTAKI, H.; SATO, J.; NAKAE, T.;

HISAMITSU, T.; KOJIMA, G.; FELSTED, J.; KAKARMATH, S.; KVEDAR, J.; JETHWANI,

K. A machine learning model to predict the risk of 30-day readmissions

in patients with heart failure: a retrospective analysis of electronic medical

records data. BMC Med Inform Decis Mak, 18(1):44, 06 2018.

[24] GOLDSCHMIDT, R.; PASSOS, E. Data mining: um guia Prático. Elsevier

Editora, 2005.

[25] GOLMOHAMMADI.; DAVOOD.; RADNIA.; NAEIMEH. Prediction modeling and pattern

recognition for patient readmission. International Journal of Production Econo-

mics, 171:151–161, 2016.

[26] HODGSON, K.; R DEENY, S.; STEVENTON, A. Ambulatory care-sensitive conditi-

ons: Their potential uses and limitations. BMJ Quality Safety, p. bmjqs–2018, 02

2019.

[27] INSTITUTE, N. C. Fourth national forum on biomedical imaging in on-

cology | reports & publications | cancer imaging program (cip). https:

//imaging.cancer.gov/programs_resources/reports_publications/

reports_presentations/4th-bio-forum.htm, 2003. (Accessed on 05/29/2019).

[28] KITCHENHAM, B. Procedures for performing systematic reviews. Keele University,

Keele, UK, 2004.

Page 83: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas 82

[29] LEONDES, C. Neural Network Systems Techniques and Applications: Advances

in Theory and Applications. ISSN. Elsevier Science, 1998.

[30] LETHEBE, B. C.; WILLIAMSON, T.; GARIES, S.; MCBRIEN, K.; LEDUC, C.; BUTALIA,

S.; SOOS, B.; SHAW, M.; DRUMMOND, N. Developing a case definition for type

1 diabetes mellitus in a primary care electronic medical record database: an

exploratory study. CMAJ Open, 7(2):E246–E251, 2019.

[31] LIN, S.; ZHANG, Q.; CHEN, F.; LUO, L.; CHEN, L.; ZHANG, W. Smooth Bayesian

network model for the prediction of future high-cost patients with COPD. Int J

Med Inform, 126:147–155, Jun 2019.

[32] M. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to kno-

wledge discovery in databases. AI Magazine, 17:37–54, 03 1996.

[33] MCKINLEY, D.; MOYE-DICKERSON, P.; DAVIS, S.; AKIL, A. Impact of a Pharmacist-

Led Intervention on 30-Day Readmission and Assessment of Factors Predictive

of Readmission in African American Men With Heart Failure. Am J Mens Health,

13(1):1557988318814295, 2019.

[34] MERCALDO, F.; NARDONE, V.; SANTONE, A. Diabetes mellitus affected patients

classification and diagnosis through machine learning techniques. Procedia

Computer Science, 112:2519 – 2528, 2017. Knowledge-Based and Intelligent In-

formation Engineering Systems: Proceedings of the 21st International Conference,

KES-20176-8 September 2017, Marseille, France.

[35] MITCHELL, T. M. Machine Learning. McGraw-Hill Science/Engineering/Math;, 1997.

[36] MORIMOTO, T.; COSTA, J. S. D. D. Hospitalization for primary care susceptible

conditions, health spending and family health strategy: an analysis of trends.

Ciencia & saude coletiva, 22(3):891–900, 2017.

[37] NORONHA, J. C. Ministério da saúde / secretaria de atenção à saúde - portaria

no 221, de 17 de abril de 2008. http://bvsms.saude.gov.br/bvs/saudelegis/

sas/2008/prt0221_17_04_2008.html, 04 2008.

Acessado em: 14/07/2018 23:30.

[38] ORCHARD, P.; AGAKOVA, A.; PINNOCK, H.; BURTON, C. D.; SARRAN, C.; AGAKOV,

F.; MCKINSTRY, B. Improving Prediction of Risk of Hospital Admission in

Chronic Obstructive Pulmonary Disease: Application of Machine Learning to

Telemonitoring Data. J. Med. Internet Res., 20(9):e263, Sep 2018.

[39] OZKAN, I. A.; KOKLU, M.; SERT, I. U. Diagnosis of urinary tract infection based

on artificial intelligence methods. Comput Methods Programs Biomed, 166:51–59,

Nov 2018.

Page 84: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas 83

[40] PANG-NING TAN, MICHAEL STENBACH, V. K. Introduction to Data Mining. Addison-

Wesley, 3th edition, 2005.

[41] PEI, Z.; LIU, J.; LIU, M.; ZHOU, W.; YAN, P.; WEN, S.; CHEN, Y. Risk-Predicting

Model for Incident of Essential Hypertension Based on Environmental and

Genetic Factors with Support Vector Machine. Interdiscip Sci, 10(1):126–130,

Mar 2018.

[42] PREZOTTO, K. H.; CHAVES, M. M. N.; MATHIAS, T. A. D. F. Hospital admissions

due to ambulatory care sensitive conditions among children by age group and

health region. Revista da Escola de Enfermagem da USP, 49:44 – 53, 02 2015.

[43] RAHIMIAN, F.; SALIMI-KHORSHIDI, G.; PAYBERAH, A. H.; TRAN, J.; AYALA SOLARES,

R.; RAIMONDI, F.; NAZARZADEH, M.; CANOY, D.; RAHIMI, K. Predicting the risk

of emergency admission with machine learning: Development and validation

using linked electronic health records. PLoS Med., 15(11):e1002695, 11 2018.

[44] SARKAR, C.; SRIVASTAVA, J. Impact of density of lab data in ehr for prediction

of potentially preventable events. In: 2013 IEEE International Conference on

Healthcare Informatics (ICHI), p. 529–534. IEEE, 2013.

[45] SNEHA, N.; GANGIL, T. Analysis of diabetes mellitus for early prediction using

optimal features selection. Journal of Big Data, 6(1):13, Feb 2019.

[46] SOUSA, R. T.; PEREIRA, L. A.; DA SILVA SOARES, A. Predicting diabetes dise-

ase evolution using financial records and recurrent neural networks. CoRR,

abs/1811.09350, 2018.

[47] SPATHIS, D.; VLAMOS, P. Diagnosing asthma and chronic obstructive pulmonary

disease with machine learning. Health Informatics J, p. 1460458217723169, Aug

2017.

[48] SWAMINATHAN, S.; QIRKO, K.; SMITH, T.; CORCORAN, E.; WYSHAM, N. G.; BAZAZ,

G.; KAPPEL, G.; GERBER, A. N. A machine learning approach to triaging patients

with chronic obstructive pulmonary disease. PLoS ONE, 12(11):e0188532, 2017.

[49] TAYLOR, R. A.; MOORE, C. L.; CHEUNG, K. H.; BRANDT, C. Predicting urinary

tract infections in the emergency department with machine learning. PLoS ONE,

13(3):e0194085, 2018.

[50] THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. Academic Press, 2008.

[51] VCMH/IESS. Índice de variação de custos médico-hospitalares. https://www.

iess.org.br/cms/rep/historico_vcmh.pdf, 2018. (Accessed on 05/24/2019).

Page 85: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Referências Bibliográficas 84

[52] XIE, Y.; REDMOND, S. J.; MOHKTAR, M. S.; SHANY, T.; BASILAKIS, J.; HESSION, M.;

LOVELL, N. H. Prediction of chronic obstructive pulmonary disease exacerba-

tion using physiological time series patterns. Conf Proc IEEE Eng Med Biol Soc,

2013:6784–6787, 2013.

[53] YE, C.; FU, T.; HAO, S.; ZHANG, Y.; WANG, O.; JIN, B.; XIA, M.; LIU, M.; ZHOU, X.;

WU, Q.; GUO, Y.; ZHU, C.; LI, Y. M.; CULVER, D. S.; ALFREDS, S. T.; STEARNS, F.;

SYLVESTER, K. G.; WIDEN, E.; MCELHINNEY, D.; LING, X. Prediction of Incident

Hypertension Within the Next Year: Prospective Study Using Statewide Electro-

nic Health Records and Machine Learning. J. Med. Internet Res., 20(1):e22, 01

2018.

[54] YING, J.; YANG, C.; LI, Q.; XUE, W.; LI, T.; CAO, W. [Severity classification of

chronic obstructive pulmonary disease based on deep learning]. Sheng Wu Yi

Xue Gong Cheng Xue Za Zhi, 34(6):842–849, Dec 2017.

[55] ZAMBONI, A. B., T. A. D. H. E. C. M. F. S. C. Start uma ferramenta computacional

de apoio à revisão sistemática. 2010.

[56] ZOU, Q.; QU, K.; LUO, Y.; YIN, D.; JU, Y.; TANG, H. Predicting Diabetes Mellitus

With Machine Learning Techniques. Front Genet, 9:515, 2018.

Page 86: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

APÊNDICE ASeleção de parâmetros dos algoritmos

Neste apêndice são apresentados os melhores parâmetros escolhidos na fase deTuning em cada uma das 10 iterações realizadas para cada grupo de patologia e cadaalgoritmo de aprendizado. Esta análise pode ajudar na escolha de parâmetros fixos para odesenvolvimento de um possível sistema de auxílio médico para a previsão de internação.

A.1 Infecção do trato urinário

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos deÁrvore de Decisão, SVM e MLP experimentados, para o grupo patológico de infecçãodo trato urinário de localização não especificada.

Tabela A.1: Melhores parâmetros para Árvore de Decisão.Repetição criterion max_depth min_samples_split splitter

1 entropy 20 5 random

2 entropy 20 4 random

3 entropy 20 4 random

4 entropy 20 5 best

5 entropy 20 4 random

6 entropy 20 5 best

7 entropy 20 5 random

8 entropy 20 5 random

9 entropy 20 5 best

10 entropy 20 5 random

Page 87: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 86

Tabela A.2: Melhores parâmetros para SVM.Repetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 poly 0.1 3 0.1

3 poly 0.1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 poly 0.1 3 0.1

9 poly 0.1 3 0.1

10 poly 0.1 3 0.1

Tabela A.3: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [11, 11, 11]

2 logistic [10, 10, 10]

3 logistic [11, 11, 11]

4 logistic [11, 11, 11]

5 logistic [11, 11, 11]

6 logistic [10, 10, 10]

7 logistic [9, 9, 9]

8 logistic [11, 11, 11]

9 logistic [11, 11, 11]

10 logistic [9, 9, 9]

Page 88: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 87

Figura A.1: AUC ROC para infecção do trato urinário de localização não especificada

(10X).

FONTE: Produzida pelo autor (2019).

A.2 Insuficiência cardíaca não especificada

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos deÁrvore de Decisão, SVM e MLP experimentados, para o grupo patológico de insuficiênciacardíaca não especificada.

Page 89: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 88

Tabela A.4: Melhores parâmetros para Árvore de Decisão.Repetição criterion max_depth min_samples_split splitter

1 entropy 20 5 best

2 entropy 20 5 random

3 gini 20 5 best

4 entropy 20 5 best

5 entropy 20 5 best

6 entropy 20 5 best

7 entropy 20 5 best

8 entropy 20 5 best

9 entropy 20 5 random

10 entropy 20 5 random

Tabela A.5: Melhores parâmetros para SVMRepetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 poly 0.1 3 0.1

3 poly 0.1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 poly 0.1 3 0.1

9 poly 0.1 3 0.1

10 poly 0.1 3 0.1

Tabela A.6: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [10, 10, 10]

2 logistic [11, 11, 11]

3 logistic [8, 8, 8]

4 logistic [11, 11, 11]

5 logistic [11, 11, 11]

6 logistic [7, 7, 7]

7 logistic [8, 8, 8]

8 logistic [10, 10, 10]

9 logistic [11, 11, 11]

10 logistic [11, 11, 11]

Page 90: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 89

Figura A.2: AUC ROC para insuficiência cardíaca não especificada (10X).

FONTE: Produzida pelo autor (2019).

A.3 Diabetes mellitus

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos de ,SVM e MLP experimentados, para o grupo patológico de diabetes mellitus.

Page 91: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 90

Tabela A.7: Melhores parâmetros para Árvore de DecisãoRepetição criterion max_depth min_samples_split splitter

1 gini 20 4 best

2 gini 30 5 best

3 gini 20 4 best

4 gini 20 4 best

5 gini 20 5 best

6 entropy 20 5 random

7 gini 30 5 best

8 gini 20 5 best

9 gini 30 5 best

10 gini 20 5 best

Tabela A.8: Melhores parâmetros para SVM.Repetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 poly 0.1 3 0.1

3 poly 0.1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 poly 0.1 3 0.1

9 poly 0.1 3 0.1

10 poly 0.1 3 0.1

Tabela A.9: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [10, 10, 10]

2 logistic [9, 9, 9]

3 logistic [11, 11, 11]

4 logistic [11, 11, 11]

5 logistic [9, 9, 9]

6 logistic [8, 8, 8]

7 logistic [9, 9, 9]

8 logistic [11, 11, 11]

9 logistic [11, 11, 11]

10 logistic [11, 11, 11]

Page 92: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 91

Figura A.3: AUC ROC para diabetes mellitus (10X).

FONTE: Produzida pelo autor (2019).

A.4 Bronquite não especificada

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos deÁrvore de Decisão, SVM e MLP experimentados, para o grupo patológico de bronquitenão especificada.

Page 93: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 92

Tabela A.10: Melhores parâmetros para Árvore de Decisão.Repetição criterion max_depth min_samples_split splitter

1 entropy 20 5 random

2 entropy 20 5 random

3 entropy 20 5 random

4 entropy 20 4 best

5 entropy 20 5 random

6 entropy 20 5 random

7 entropy 20 3 best

8 entropy 20 5 random

9 entropy 20 4 best

10 entropy 20 5 best

Tabela A.11: Melhores parâmetros para SVM.Repetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 poly 0.1 3 0.1

3 poly 0.1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 poly 0.1 3 0.1

9 poly 0.1 3 0.1

10 poly 0.1 3 0.1

Tabela A.12: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [7, 7, 7]

2 logistic [4, 4, 4]

3 logistic [5, 5, 5]

4 logistic [9, 9, 9]

5 logistic [11, 11, 11]

6 logistic [10, 10, 10]

7 logistic [9, 9, 9]

8 logistic [1, 1, 1]

9 logistic [2, 2, 2]

10 logistic [6, 6, 6]

Page 94: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 93

Figura A.4: AUC ROC para bronquite não especificada (10X).

FONTE: Produzida pelo autor (2019).

A.5 Hipertensão essencial

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos deÁrvore de Decisão, SVM e MLP experimentados, para o grupo patológico de hipertensãoessencial.

Page 95: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 94

Tabela A.13: Melhores parâmetros para Árvore de Decisão.Repetição criterion max_depth min_samples_split splitter

1 entropy 10 5 random

2 gini 20 5 best

3 gini 20 5 best

4 entropy 10 5 best

5 gini 20 5 random

6 entropy 20 4 best

7 entropy 10 5 best

8 gini 20 5 best

9 entropy 20 5 random

10 gini 20 4 random

Tabela A.14: Melhores parâmetros para SVM.Repetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 rbf 1 3 0.1

3 rbf 1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 rbf 1 3 0.1

9 poly 0.1 3 0.1

10 rbf 1 3 0.1

Tabela A.15: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [10, 10, 10]

2 logistic [11, 11, 11]

3 logistic [11, 11, 11]

4 logistic [8, 8, 8]

5 logistic [9, 9, 9]

6 logistic [9, 9, 9]

7 logistic [8, 8, 8]

8 logistic [10, 10, 10]

9 logistic [11, 11, 11]

10 logistic [10, 10, 10]

Page 96: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 95

Figura A.5: AUC ROC para hipertensão essencial (10X).

FONTE: Produzida pelo autor (2019).

A.6 Doença pulmonar obstrutiva crônica

A seguir, são apresentados os melhores parâmetros para os 3 algoritmos deÁrvore de Decisão, SVM e MLP experimentados, para o grupo patológico de doençapulmonar obstrutiva crônica.

Page 97: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 96

Tabela A.16: Melhores parâmetros para Árvore de Decisão.Repetição criterion max_depth min_samples_split splitter

1 gini 10 5 best

2 gini 11 5 best

3 gini 12 5 best

4 gini 13 5 random

5 gini 14 5 random

6 gini 15 3 random

7 gini 16 5 best

8 gini 17 3 random

9 gini 18 5 best

10 gini 19 5 random

Tabela A.17: Melhores parâmetros para SVM.Repetição kernel C degreee gamma

1 poly 0.1 3 0.1

2 poly 0.1 3 0.1

3 poly 0.1 3 0.1

4 poly 0.1 3 0.1

5 poly 0.1 3 0.1

6 poly 0.1 3 0.1

7 poly 0.1 3 0.1

8 poly 0.1 3 0.1

9 poly 0.1 3 0.1

10 poly 0.1 3 0.1

Tabela A.18: Melhores parâmetros para MLP.Repetição activation hidden_layer_sizes

1 logistic [10, 10, 10]

2 logistic [9, 9, 9]

3 logistic [6, 6, 6]

4 logistic [10, 10, 10]

5 logistic [11, 11, 11]

6 logistic [5, 5, 5]

7 logistic [7, 7, 7]

8 logistic [4, 4, 4]

9 logistic [11, 11, 11]

10 logistic [10, 10, 10]

Page 98: Predição de Internações por Condições Sensíveis à Atenção Básica · 2020. 5. 13. · Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração

Apêndice A 97

Figura A.6: AUC ROC para doença pulmonar obstrutiva crônica (10X).

FONTE: Produzida pelo autor (2019).