1 modelo de estimativa de risco de incidência de tuberculose em municípios brasileiros mineração...

33
1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ([email protected] ) Eric Ferreira ([email protected] ) Rossini Bezerra ([email protected] )

Upload: internet

Post on 17-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

1

Modelo de Estimativa de Risco de Incidência de

Tuberculose em Municípios Brasileiros

Mineração de DadosCleiton Lima ([email protected])Eric Ferreira ([email protected])Rossini Bezerra ([email protected])

Page 2: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

2

Roteiro Motivação Introdução e Caracterização do Problema Objetivo Parametrização do Problema Dados Disponíveis Pré-processamento dos Dados Modelagem Resultados Conclusões Referências

Page 3: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

3

1. Motivação A Tuberculose (TB) é um problema

de saúde tão grave hoje quanto no início do século passado.

Suas taxas de incidência permaneceram altas nas duas últimas décadas

Estima-se a existência de mais de 42 milhões de infectados no Brasil

112.000 óbitos no período

Page 4: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

4

2. Introdução e Caracterização do Problema (Mundo)

Page 5: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

5

3. Introdução e Caracterização do Problema (Mercado)

A Tuberculose é uma doença que estar diretamente relacionada com fator sócio-econômico.

A prevenção, tratamento e erradicação da Tuberculose não tem sido alvo das grandes Transnacionais da Área de Saúde

Page 6: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

6

4. Introdução e Caracterização do Problema (Brasil)

Page 7: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

7

5. Introdução e Caracterização do Problema (PNCT)

Diante do cenário atual de Tuberculose, o Ministério da Saúde elaborou o Plano Nacional de Controle da Tuberculose (PNCT).

As principais metas são: Integrar ações de controle em 100% do território

brasileiro Diagnosticar (até 2001) 90% dos casos de

Tuberculose Curar 85% dos casos já diagnosticados Reduzir (até 2007) a Incidência de Tuberculose em

no mínimo 50%. Reduzir (até 2007) em 66%, a Taxa de Mortalidade

Page 8: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

8

6. Introdução e Caracterização do Problema (PNCT)

Não existem, na atualidade, Mecanismos de Monitoramento das Ações e de Verificação da Eficácia das Metas aos Determinantes do Problema.

O Problema do Controle de Tuberculose no Brasil demanda Ações de Pesquisa, Monitoramento e Controle Coordenados.

Page 9: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

9

7. Objetivo do Trabalho

Integrar Ação de Pesquisa de Tuberculose (Instituto Ageu Magalhães - Prof Wayner Souza) com Pesquisadores do Grupo de Inteligência Computacional (CIN-UFPE)

Parametrizar o Problema da Tuberculose Propor um Modelo para Estimar o Risco de

Epidemia da Tuberculose em Áreas Urbanas (Municípios) no Brasil

Page 10: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

10

8. Objetivo do Trabalho

Extração de Regras para Avaliação das Variáveis de Impacto no Risco da Tuberculose

Estudo inicial de uma Ferramenta de Suporte às Instituições e Gestores de Saúde na Investigação e Controle de Tuberculose

Page 11: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

11

9. Parametrização do Problema

Na Parametrização dos Fatores de Risco de Epidemia da Tuberculose, selecionaram-se como determinantes: Fatores Populacionais e Sócio-econômicos e Fatores de Saúde

Os Dados foram selecionados para os 5.564 Municípios Brasileiros.

Vetor de 42 Características ou Variáveis (inicial)

Page 12: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

12

10. Dados Disponíveis – Descrição e Fontes

Dados Populacionais e Sócio-econômicos: Extraídos do Censo Demográfico do ano de 2000 do IBGE,

compreendendo População e caracterização Sócio-econômica.

Para períodos superiores utilizou-se Método de Projeção do próprio IBGE.

Dados de Saúde: Os dados da Tuberculose, BCG (Vacinas) e Desnutrição

foram extraídos no Sistema de Informações sobre Agravos de Notificação - SINAN, para o cálculo dos coeficientes anuais de (detecção de casos)/(setor censitário), entre

2000 a 2006.

Page 13: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

13

A Ferramenta TabWin: Foi utilizada para concatenar as duas bases de dados em

uma única base A ferramenta TabWin é disponibilizada no próprio site do

DATASUS);

Após concatenar as duas bases de dados do DATASUS e IBGE foi criado uma única base de dados No formato de planilha eletrônica( Excel)

A massa de dados é correspondente aos anos de 2001-2006

10. Dados Disponíveis – Descrição e Fontes

Page 14: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

14

11. Dados Disponíveis - Descrição

VARIÁVEL TIPO DESCRIÇÃO FONTE Casos confirmados de Tuberculose – 2001 Casos confirmados de Tuberculose – 2002 Casos confirmados de Tuberculose – 2003 Casos confirmados de Tuberculose – 2004 Casos confirmados de Tuberculose – 2005 Casos confirmados de Tuberculose – 2006

Contínua Casos confirmados em um município no período especificado.

DATASUS

BCG -2001 BCG -2002 BCG -2003 BCG -2004 BCG -2005 BCG -2006

Contínua Vacina contra a tuberculose (Bacilo de Calmette & Guérin).Dose única.

DATASUS

Abastecimento de Agua - 2000 Contínua Número de indivíduos com algum tipo de abastecimento de água.

IBGE

População Residente – 2001 População Residente – 2003 População Residente – 2004 População Residente – 2005 População Residente – 2006

Contínua População residente no município. Dados projetados a partir do último censo(2000) pelo IBGE.

IBGE

PIB – 2000 PIB Per Capita -2000 PIB – 2001 PIB Per Capita -2001 PIB – 2002 PIB Per Capita -2002

Contínua

O Produto Interno Bruto (PIB) representa a soma (em valores monetários) de todos os bens e serviços finais produzidos, neste caso, em um município.

IBGE

Instalações sanitárias - 2000 Contínua Número de indivíduos com instalações sanitárias de qualquer tipo.

IBGE

Óbitos por Município (Desnutrição) – 2001 Óbitos por Município (Desnutrição) – 2002 Óbitos por Município (Desnutrição) – 2003 Óbitos por Município (Desnutrição) – 2004 Óbitos por Município (Desnutrição) – 2005

Contínua Número de óbitos no município por desnutrição

DATASUS

Coleta de lixo - 2000 Contínua Número de indivíduos com qualquer tipo de coleta de lixo.

IBGE

Page 15: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

15

12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis)

Normalização das variáveis numéricas: Para as variáveis numéricas, a normalização

foi realizada tendo como referência a variável População, ou seja:

= (Variável / População) Por Exemplo, utilizando a variável BCG2001,

o valor normalizado desta variável irá informar a porcentagem da população da cidade que foram vacinadas (BCG) no ano de 2001.

Page 16: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

16

12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis)

Definição da variável Alvo A = Média de Casos confirmados de Tuberculose

nos anos 2004,2005 e 2006. B = Média da População nos anos de 2004, 2005 e

2006 Índice-Real nos anos de 2004, 2005 e 2006 (A/B) Índice Brasileiro – Índice do PNCT: meta de redução de 50%

da média nacional: (25 casos)/ (100.000 habitantes). Alvo ou Classe (Binária):

1 (S) : Se Índice Município > Índice do PNCT 0 (N): Se Índice Município <= Índice do PNCT

Page 17: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

17

13. Modelagem – Classificador Bayesiano

Para o Problema proposto de Estimar o Risco de Epidemia da Tuberculose nos Municípios Brasileiros propomos um Classificador Binário baseado em Redes Bayesianas.

Como Ferramenta de Simulação utilizamos o Weka para obtenção da Melhor Configuração para Rede Bayesiana.

Critério de Desempenho da Rede: Poder de Generalização ou Menor Erro na Fase de Teste.

Page 18: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

18

13. Dados Disponíveis – Variáveis selecionadas para modelo da rede

1. Municipio,2. TamanhoMunicipio,3. PIB-00, PIB-01, PIB-02,4. pib_pcap-00, pib_pcap-01, pib_pcap-02,5. InstalSanitarias- 2000,6. Óbitos2001, Óbitos2002, Óbitos2003, Óbitos2004,

Óbitos2005,7. Lixo,8. BCG2001, BCG2002, BCG2003, BCG2004,

BCG2005, BCG2006,9. AbastAgua,10. Alvo

Page 19: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

19

14. Modelagem - Classificador

Estratégia de Treinamento: Estratificado Treinamento (50%), Validação (25%) e Testes (25%).

Normalização dos Parâmetros: Realizada pelo Weka e Normalização das

variáveis numéricas (citada anteriormente) Avaliação de Desempenho do Classificador:

Curvas ROC e KS.

Page 20: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

20

15. Modelagem – Extração de Regras

Foram realizados dezenas de Experimentos para Extração do Conhecimento do Domínio do Problema

Para Extração de Regras Foi utilizada a ferramenta Weka

Algoritmo PART Configuração padrão

Page 21: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

21

16. Resultados - Classificador

Foram realizados dezenas de experimentos utilizando a ferramenta Weka para encontrar: O Melhor classificador Os parâmetros ótimos do classificador Conjunto de regras

Entre as dezenas de configurações, a rede neural que obteve a maior taxa de acerto (66%) foi: BayesNet

Estimador: SimpleEstimator – A 0.5 SearchAlgoritm: K2 – P 1-s Bayes

Page 22: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

22

16. Resultados – Curva ROC

Page 23: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

23

16. Resultados – Distribuição das Classes - BayesNet

Distribuição das Classes - BayesNet

00,1

0,20,3

0,40,50,6

0,70,8

0,91

1 151 301 451 601 751 901 1051 1201 1351

Municípios

Sco

re Alto Risco

Baixo Risco

Page 24: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

24

16. Resultados – Classificador Curva KS (Pr(Alta - Baixa))

KS (0.34)

0

0,2

0,4

0,6

0,8

1

1 151 301 451 601 751 901 1051 1201 1351

População

Pro

bab

ilid

ade

percAlta

PercBaixa

DifPercBaixAlta

Page 25: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

25

16. Resultados - Classificador

Total de Instâncias: 1391 S=Alto Risco com 690 Municípios N=Baixo Risco com 701municípios)

Instâncias Classificadas Corretamente : 918 – 66.00%

S = 456 (32,78%) N = 462 (33,22%)

Instâncias Classificadas Incorretamente : 473 – 34.00%

S = 239 (17,18%) N = 234 (16,82%)

Page 26: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

26

16. Resultados - Classificador

Matriz Confusão:

S NClassificador/

Alvo

456 234 S

239 462 N

Page 27: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

27

16. Resultados - Regras

Modelo do Classificador do conjunto de treinamento

Lista de Decisão PART Número de regras obtidas:

25 regras condicionais, do tipo: Se Condicão i and Condição j ... Então Alvo := (S/N)

Page 28: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

28

16. Resultados – Regras (exemplo)

Regra 1SE

BCG2006 > 0.020375 ANDÓbitos2004 > 0.000016 AND Óbitos2003 > 0.000276 ANDÓbitos2004 > 0.000135

EntãoS (20.0)

Apesar de 2% da população está vacinada, se os óbitos por desnutrição excederem 0,02% da mesma, temos alto risco de incidência de tuberculose.

Page 29: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

29

16. Resultados – Regras (exemplo)

Regra 2SE

BCG2006 <= 0.02258 AND Óbitos2003 <= 0.000297 ANDÓbitos2005 <= 0.000238 ANDInstalSanitarias-2000 > 0.874822 ANDBCG2006 <= 0.017122

Então N (742.0/231.0)

Se menos de 2% da população foi vacinada, mas os óbitos por desnutrição no período não excedem 0,02% e 87,4% possuir algum tipo de instalação sanitária, temos baixo risco de incidência de tuberculose

Page 30: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

30

16. Resultados – Regras (exemplo)

Regra 3SE

TamanhoMunicipio <= 6771 ANDÓbitos2003 <= 0.000074 ANDÓbitos2002 <= 0.000074

EntãoN (737.0/318.0)

Para municípios com menos de 6771 habitantes e óbitos por desnutrição menor que 0,0074% da população, temos baixo risco de tuberculose.

Page 31: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

31

16. Resultados – Regras (exemplo)

Regra 4SE

Óbitos2004 > 0.000268 ANDÓbitos2003 <= 0.00038 ANDBCG2006 > 0.018103

EntãoN (9.0)

Se a quantidade de óbitos por desnutrição em um município excede 0,026% da população em 2004 e for menor que 0,0038% em 2003 e ter mais de 1,8% da população vacinada, temos baixa probabilidade de incidência de tuberculose.

Page 32: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

32

17. Conclusões Utilizando a Metodologia de Mineração de

Dados em conjunto com Conhecimento do Negócio foi possível obter uma Ferramenta de Suporte a Decisão no Diagnóstico de TB em Municípios.

Utilização de Extração de Conhecimento usando Regras permitiu interpretar o Impacto das Variáveis no Risco de TB.

Constatamos através da Extração das Regras, que as Variáveis Sócio-econômicas estão diretamente relacionadas ao Risco de TB.

Page 33: 1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) cleiton.marcio@gmail.com

33

18. Referências Referências Bibliográficas [1] Ministério da Saúde. Guia para tratamento da tuberculose para o

Programa de Saúde da Família. Brasília (DF); 2002. [2] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM,

Albuquerque M de FM de, Andrade ALSS de et al. Vigilância de doenças endêmicas em áreas urbanas: a interface entre mapas digitais censitários e indicadores epidemiológicos. Cad Saúde Pública 1999;15:53-61.

[3] Instituto Brasileiro de Geografia e Estatística [IBGE]. Censos demográficos. Disponível em: <URL:http:// www.ibge.gov.br/ censos>

[4] Ministério da Saúde. Sistema de Informações sobre Mortalidade. Disponível em: <URL: http://www.datasus.gov.br>

[5] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de FM de, Andrade ALSS de et al. Tuberculosis in Brazil: construction of a territorially based surveillance system

Rev Saúde Pública 2005;39(1):82-9 [6] S. Haykin, “Neural Networks a Compreensive Foundation”, 2end

ed, Tom Robbins, Ed. USA, New Jersey: Prentice-Hall, Inc, 1999.