Download - Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 2
Alunos:
Marcelo Marinho DRE: 103109228
Mariana Belmar DRE: 103118138
Thiego Batalha DRE: 104034751
2
Introdução
A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte.
Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as condições do meio ambiente favorecem o seu desenvolvimento e proliferação.
Descrição do problema
• Com base no banco de dados disponível, referente aos anos de 2001 e 2002, verificar a possibilidade de predizer se o indivíduo possui ou não dengue através dos dados clínicos.
Caracterização da categoria
• Para o problema acima descrito, será utilizada uma predição.
Fonte dos dados
Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde.
Dados excluídos
A princípio, foram mantidas as variáveis:
• Dados clínicos (todas);• Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE);• Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e CS_ZONA); e• Conclusão (ID_DG_NOT).
Dados errados
• Observamos erros significativos baseados em cruzamentos simples de informações entre duas variáveis correlacionadas.
• Em alguns casos, tivemos observações com valores absurdos entre variáveis correlacionadas, que foram corrigidas ou excluídas da amostra, de acordo com o caso.
Transformação das variáveis
• Na maioria das variáveis mantidas no banco de dados, foi observado um imenso número de dados faltantes (missings). Em alguns casos, esse problema pôde ser contornado através de variáveis correlacionadas presentes no banco. Nos demais casos, foram considerados “9” (ignorado) os dados faltantes.
• Nos casos de variáveis de data, foi deixado para a análise do banco apenas o ano referente, por questões de praticidade.
• Foram padronizadas também as datas que apresentavam diferenças entre si e também as informações fornecidas nos três campos referentes à especificação do caso “outros”.
Dados faltantes (missings)
Significância das variáveis
• As variáveis mantiveram um padrão semelhante ao da distribuição da variável utilizada como parâmetro.
Frequências da variável resposta ID_DG_NOT
Amostra do banco de dados de 2001
0
1020
30
4050
60
70
8090
100
1 2 3 4 5
Resposta
Per
cen
tual
de
freq
uên
cia
s
Banco de dados de 2001
0
1020
3040
50
6070
8090
100
1 2 3 4 5
Resposta
Perc
en
tual d
e f
req
uên
cia
s
Banco de dados de 2002
0
1020
3040
50
6070
8090
100
1 2 3 4 5
Resposta
Perc
en
tual d
e f
req
uên
cia
s
Amostra do banco de dados de 2002
010
2030
4050
6070
8090
100
1 2 3 4 5
Resposta
Per
cen
tual
de
freq
uên
cias
Evidências de falta de significância
• Informações presentes em outros campos subseqüentes, o que torna redundante a informação; e
Falta de informação para a análise, pois a maioria das observações disponíveis eram missings.
Banco de Dados
• Após as análises e tratamentos apresentados, nosso banco de dados final ficou com 20 variáveis, além da variável resposta ID_DG_NOT. São elas:
DENGUE ANO VACINADO FEBRE LACO
CEFALEIA EXANTEMA DOR PROSTACAO MIALGIA
NAUSEAS ARTRALGIA EPISTAXE PETEQUIAS GENGIVO
ASCITE PLEURAL ABDOMINAL HEPATO CHOQUE
Seleção do método
• Utilizou-se o procedimento hierárquico chamado árvore de classificação, para melhor visualização e entendimento do modelo; e
• Dentro deste procedimento foi aplicado o método CART (Classification Regression Tree).
Ajuste do modelo
• Tentativas de bondade de ajuste: medida Gini e Qui-quadrado;
• Em ambas as tentativas foi utilizada a poda por erro de classificação e a poda por “deviance”;
• Assumiu-se probabilidades a priori estimadas para os resultados da variável resposta; e
• Utilização de uma amostra de 8985 casos extraídos do banco de dados com os casos de dengue do ano de 2001.
Tree 1 graph f or ID_DG_NOT
Num. of non-terminal nodes : 7, Num. of terminal nodes : 8
ID=1 N=71471
ID=2 N=40761
ID=4 N=14501
ID=6 N=8811
ID=8 N=7271
ID=10 N=85
ID=13 N=65ID=12 N=22
ID=14 N=31 ID=15 N=35
ID=11 N=7191
ID=9 N=1541
ID=7 N=5691
ID=5 N=26261
ID=3 N=30711
E X A NT E MA = 2 = Other(s )
LA CO = 9 = Other(s )
P ROS T A CA O = 2 = Other(s )
V A CINA DO = 9 = Other(s )
A NO = 1997, ... = Other(s )
DOR = 2 = Other(s )
A RT RA LGIA = 2 = Other(s )
12345
Matriz de confusão
Clas s if ic ation matr ix 1Dependent v ar iable: ID_DG_NOT
Options : Categor ic al res pons e, Tree number 1, A naly s is s ample
Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001
Lif t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 1
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
60
65
70
75
80
85
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 2
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 3
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
-0,05
0,00
0,05
0,10
0,15
0,20
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 4
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
-0,001
0,000
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 5
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
22
24
26
28
30
32
34
36
38
40
42
44
Response %
Gráficos de alavancagem obtido usando uma amostra do banco de 2002
Lif t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 1
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
60
65
70
75
80
85
90
95
100
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 2
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
-0,001
0,000
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 3
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 4
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
-0,001
0,000
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
Response %
L if t Chart - Res pons e %
Cumulativ e
Selec ted c ategory of ID_DG_NOT: 5
Model TreeModel
0 10 20 30 40 50 60 70 80 90 100 110
Perc entile
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Response %
Resultados da validação
1 2 3 4 5
1
3
5
0
1000
2000
3000
4000
5000
6000
7000
Valores preditos
Valores observados
Matriz de confusão em valores absolutos
00001005
000004
00001003
000002
00,030099,971
54321Valores
observados
Valores preditos
Percentuais
7227Total
2515
04
413
02
69351
TotalResposta
Banco de dados de 2002
Implementação
• Preparação do modelo para sua utilização;• Modelo ajustado através do método de Árvore de classificação;• Parâmetros da árvore ajustada:
• Teste de bondade de ajuste: qui-quadrado;• Poda: erro de classificação; e• Probabilidades a priori para a variável resposta ID_DG_NOT:
estimada.
Implementação
Utilização da amostra de validação com os casos de dengue do ano de 2002 (7227 casos);
Exclusão de variáveis desnecessárias.
ARTRALGIA
DOR
ANO
VACINADO
PROSTACAO
LACO
ID_DG_NOT
EXANTEMA
Variável de saídaVariáveis de entrada
• Utilizando o modelo de árvore de classificação escolhido, será feita a predição se o indivíduo possui dengue ou não, onde o resultado da predição será apresentado na variável de saída.
Tree 1 graph f or ID_DG_NOT
Num. of non-terminal nodes : 7, Num. of terminal nodes : 8
ID=1 N=71471
ID=2 N=40761
ID=4 N=14501
ID=6 N=8811
ID=8 N=7271
ID=10 N=85
ID=13 N=65ID=12 N=22
ID=14 N=31 ID=15 N=35
ID=11 N=7191
ID=9 N=1541
ID=7 N=5691
ID=5 N=26261
ID=3 N=30711
E X A NT E MA = 2 = Other(s )
LA CO = 9 = Other(s )
P ROS T A CA O = 2 = Other(s )
V A CINA DO = 9 = Other(s )
A NO = 1997, ... = Other(s )
DOR = 2 = Other(s )
A RT RA LGIA = 2 = Other(s )
12345
Árvore de Classificação escolhida
Retorno do Investimento (ROI)
• Avaliação do impacto financeiro do projeto;• ROI: neste caso, o retorno seria uma redução nos custos da
realização de exame de sangue para confirmação do diagnóstico de dengue;
• Cálculo do ROI será baseado utilizando o custo de fazer exame de sangue para confirmação da doença;
• Custo do exame de sangue: R$ 20,00;• Foram calculados três ROI´s:
• Considerando a amostra de treinamento do banco de dados com os casos de dengue do ano de 2001 (7147 casos);
• Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2001 (1838 casos); e
• Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2002 (7227 casos).
Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001:
35
4
3
112
1822110353061
Predito
54321
Observado
Amostra de treinamento
0,0420%Redução:
R$ 142.880,00Custo com o modelo:
R$ 142.940,00Custo sem o modelo:
ROI considerando amostra de treinamento do banco de 2001
Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001:
Custo sem o modelo:
R$ 20,00 x 7147 = R$ 142.940,00
Custo com o modelo:
R$ 20,00 x 7144 = R$ 142.880,00
ROI: (R$ 142.940,00 – R$ 142.880,00) / R$ 142.940,00 = 0,0420 %
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001:
5
4
3
2
487513461
Predito
54321
Observado
Amostra de validação banco de 2001
0%Redução:
R$ 36.760,00Custo com o modelo:
R$ 36.760,00Custo sem o modelo:
ROI considerando amostra de validação do banco de 2001
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001:
• Custo sem o modelo:
R$ 20,00 x 1838 = R$ 36.760,00
• Custo com o modelo:
R$ 20,00 x 1838 = R$ 36.760,00
• ROI: (R$ 36.760,00 – R$ 36.760,00) / R$ 36.760,00 = 0 %
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002:
5
24
3
2
2514169331
Predito
54321
Observado
Amostra de validação banco de 2002
0%Redução:
R$ 144.540,00Custo com o modelo:
R$ 144.540,00Custo sem o modelo:
ROI considerando amostra de validação do banco de 2002
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002:
• Custo sem o modelo:
R$ 20,00 x 7227 = R$ 144.540,00
• Custo com o modelo:
R$ 20,00 x 7227 = R$ 144.540,00
• ROI: (R$ 144.540,00 – R$ 144.540,00) / R$ 144.540,00 = 0 %