painel 01 01 - tiago hillermam - análise de cobranças suspeitas de consultas médicas ...
TRANSCRIPT
Universidade de Brasília– UnBMestrado Profissional em Computação Aplicada
Tiago Pereira HillermanDr. Rommel Novaes CarvalhoDr. Ana Carla Bittencourt Reis
Setembro 2015
Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means
2
Introdução / Contexto
MetodologiaEntendimento do Negócio
Entendimento e Preparação dos Dados
Modelagem e Avaliação
Implementação Conclusões e Aplicações
Futuras
Agenda
3
Aumento de custos de saúde
~10 – 20% do PIB (Brasil / EUA)
Dificuldades em avaliar dados de cobranças
Inconsistências, Desperdícios e Abusos
Estimativa: 10-15% das despesas, dependendo do país
• Cobranças excessivas• Procedimentos / materiais / medicamentos desnecessários• Despesas com serviços não prestados
• Volume de registros• Regras de negócio para cada procedimento• Ausência de análise comportamental de
cobranças de prestadores
IntroduçãoCONTEXTO
4
Objetivo PrincipalDetectar cobranças excessivas oriundas de prestadores de serviços assistenciais
• Foco: Consultas médicas
• Hipótese: “Dia impossível”
Metodologia
CRISP-DM
Fonte: CHAPMAN et. al., 2000
Detecção de anomalias
Clusterização K-means
Abordagem não supervisionada
5
Clusterização - K-Means
Agrupamento de objetos por semelhança (distância)
A
Exemplo: 3 Clusters (K = centróides)
B
C
D
EF
1.Centróides
iniciais aleatórios
C1
C2
C3
2.Vinculação de pontos mais
próximos
3.Atualização
de centróides
4.Nova
vinculação
FC1
C2
C3A
B
C
D
EF
C1
C2
C3A
C1
C2
C3A
B
C
D
E
D
EF
B
C
A
B
C
D
EF
Lloyd (1957), Hartigan and Wong (1975)
6
A
Alternativa: Método do “cotovelo” / (Soma de erros)
AC1
C2
D
E
F
B
C
C3D
E
F
B
C
C1
C2
“Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters
Menor erro = “melhor” representação
K = 2 K = 3
Definindo o número de agrupamentos (clusters)
7
Entendimento do Negócio
Possível abuso: Serviços não prestados – “dia impossível”
Ausência de controles:
Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação)
Qtde. de pacientes por prestador, por dia
Comportamento de prestadores em relação aos pares
Instituição avaliadaOperadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões
Rede de Prestadores:Pessoas Jurídicas: Hospitais, clínicas, laboratórios(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas
8
Conjunto de dados inicial
Variáveis iniciais
Entendimento e Preparação dos Dados (1 de 3)
~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00
Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
9
Entendimento e Preparação dos Dados (2 de 3)
Conjunto de dados inicial
Variáveis iniciais
~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00
Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo
Manipulação: R Studio
10
Entendimento e Preparação dos Dados (3 de 3)
Distribuição de “Qtde. de consultas por dia”
~99% de registros
< 1% de registros
Máx. = 93 consultas por dia
11
Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia?~ 15 mins. por consulta08 horas por dia (x) 60mins = 480 mins.480/15 = 32 consultas por dia
18 prestadores Valor
envolvido: R$ 600.000,00
12
Limite
Cobrança incorreta, porém justificável
Entendimento do negócio – Problemas!
Falsos Positivos
13
Falsos Negativos
Entendimento do negócio – Problemas!
Limite
Limite
14
Frequência: Qtde. de dias com atendimentos no mês
Alerta: Qtde. de visitas distintas em um único dia
Volume: Qtde. de pacientes atendidos no mês
Entendimento do negócio – Novas variáveis
15
Preparação dos dados – Novas variáveis
Variáveis iniciais
16
Novas variáveis
Alerta Frequência
Volume
Preparação dos dados – Novas variáveis
Variáveis iniciais
17
Modelagem – Novas Variáveis
Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes
da média(Média + (6 * Desv.Padrão)) = 10.6 consultas
por diaNovo subconjunto: ~2.000 registros
18
Modelagem – Clusterização do Novo Subconjunto via K-Means (i)
19
Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)Qtde. de registros e prestadores em cada cluster
20
Evaluation – Means and S.D. for variables in each cluster
Qtde. de registros e prestadores em cada cluster
Análise: Média e D.P. de cada variável, em cada cluster
21
Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04
Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03
22
Implantação – Resultados / Conclusões (i)
Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas
Necessário verificar novos prestadores (54)
23
Suspeitos confirmados = monitoramento / possível descredenciamento
Implantação – Resultados / Conclusões (ii)
Vantagens / Trabalhos Futuros
• Sem necessidade de estabelecer limites por procedimentos
• Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento)
• Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema)
• Expansão para outros procedimentos e tipos de prestador
Confirmação por meio de análise de guias físicias e entrevistas
Setembro 2015
Obrigado!
Tiago Pereira HillermanMPCA UnB – Computação Aplicada, Universidade de Brasí[email protected] / 61 9339 0000
25
26
Definindo o número de clusters
Métricas NbClust
• Índices de eficiência para cada n número de clusters
Exemplos:
Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster
Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters.
É utilizada como indicador a média do conjunto de agrupamentos.
27
Média, desvio padrão