painel 01 01 - tiago hillermam - análise de cobranças suspeitas de consultas médicas ...

Post on 10-Jan-2017

139 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Universidade de Brasília– UnBMestrado Profissional em Computação Aplicada

Tiago Pereira HillermanDr. Rommel Novaes CarvalhoDr. Ana Carla Bittencourt Reis

Setembro 2015

Análise de Cobranças Suspeitas de Consultas Médicas Utilizando o Algoritmo K-means

2

Introdução / Contexto

MetodologiaEntendimento do Negócio

Entendimento e Preparação dos Dados

Modelagem e Avaliação

Implementação Conclusões e Aplicações

Futuras

Agenda

3

Aumento de custos de saúde

~10 – 20% do PIB (Brasil / EUA)

Dificuldades em avaliar dados de cobranças

Inconsistências, Desperdícios e Abusos

Estimativa: 10-15% das despesas, dependendo do país

• Cobranças excessivas• Procedimentos / materiais / medicamentos desnecessários• Despesas com serviços não prestados

• Volume de registros• Regras de negócio para cada procedimento• Ausência de análise comportamental de

cobranças de prestadores

IntroduçãoCONTEXTO

4

Objetivo PrincipalDetectar cobranças excessivas oriundas de prestadores de serviços assistenciais

• Foco: Consultas médicas

• Hipótese: “Dia impossível”

Metodologia

CRISP-DM

Fonte: CHAPMAN et. al., 2000

Detecção de anomalias

Clusterização K-means

Abordagem não supervisionada

5

Clusterização - K-Means

Agrupamento de objetos por semelhança (distância)

A

Exemplo: 3 Clusters (K = centróides)

B

C

D

EF

1.Centróides

iniciais aleatórios

C1

C2

C3

2.Vinculação de pontos mais

próximos

3.Atualização

de centróides

4.Nova

vinculação

FC1

C2

C3A

B

C

D

EF

C1

C2

C3A

C1

C2

C3A

B

C

D

E

D

EF

B

C

A

B

C

D

EF

Lloyd (1957), Hartigan and Wong (1975)

6

A

Alternativa: Método do “cotovelo” / (Soma de erros)

AC1

C2

D

E

F

B

C

C3D

E

F

B

C

C1

C2

“Soma” das distâncias entre os pontos e seus centróides, Considerando diferentes quantidades de clusters

Menor erro = “melhor” representação

K = 2 K = 3

Definindo o número de agrupamentos (clusters)

7

Entendimento do Negócio

Possível abuso: Serviços não prestados – “dia impossível”

Ausência de controles:

Qtde. de prestadores/procedimento por paciente, por dia (Ex. coparticipação)

Qtde. de pacientes por prestador, por dia

Comportamento de prestadores em relação aos pares

Instituição avaliadaOperadora de planos de saúde - Autogestão Despesas em 2014 – aprox. R$ 3 bilhões

Rede de Prestadores:Pessoas Jurídicas: Hospitais, clínicas, laboratórios(maioria) Pessoas Físicas: Médicos, especialistas, terapeutas

8

Conjunto de dados inicial

Variáveis iniciais

Entendimento e Preparação dos Dados (1 de 3)

~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00

Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo

9

Entendimento e Preparação dos Dados (2 de 3)

Conjunto de dados inicial

Variáveis iniciais

~1 milhão de registros~ 13.000 prestadores~ R$ 65.000.000,00

Extração Inicial - Origem – Sistema de cobranças (Base SQL) - Período: jan-dez 2013 - Filtros: Pessoas físicas, consultas, autorizador externo

Manipulação: R Studio

10

Entendimento e Preparação dos Dados (3 de 3)

Distribuição de “Qtde. de consultas por dia”

~99% de registros

< 1% de registros

Máx. = 93 consultas por dia

11

Entendimento do negócio (novamente) Consulta aos especialistas: Quantidade máxima de consultas por dia?~ 15 mins. por consulta08 horas por dia (x) 60mins = 480 mins.480/15 = 32 consultas por dia

18 prestadores Valor

envolvido: R$ 600.000,00

12

Limite

Cobrança incorreta, porém justificável

Entendimento do negócio – Problemas!

Falsos Positivos

13

Falsos Negativos

Entendimento do negócio – Problemas!

Limite

Limite

14

Frequência: Qtde. de dias com atendimentos no mês

Alerta: Qtde. de visitas distintas em um único dia

Volume: Qtde. de pacientes atendidos no mês

Entendimento do negócio – Novas variáveis

15

Preparação dos dados – Novas variáveis

Variáveis iniciais

16

Novas variáveis

Alerta Frequência

Volume

Preparação dos dados – Novas variáveis

Variáveis iniciais

17

Modelagem – Novas Variáveis

Clusterização de registros cuja variável “QTDE POR DIA” se encontram mais distantes

da média(Média + (6 * Desv.Padrão)) = 10.6 consultas

por diaNovo subconjunto: ~2.000 registros

18

Modelagem – Clusterização do Novo Subconjunto via K-Means (i)

19

Modelagem – Clusterização do Novo Subconjunto via K-Means (ii)Qtde. de registros e prestadores em cada cluster

20

Evaluation – Means and S.D. for variables in each cluster

Qtde. de registros e prestadores em cada cluster

Análise: Média e D.P. de cada variável, em cada cluster

21

Simulação: Probabilidade que registros com características do Cluster 03 (média e DP) seriam encontrados nos Clusters 01, 02, 04

Evaluation – Simulated distrbution – Means and S.D. for variables in Cluster 03

22

Implantação – Resultados / Conclusões (i)

Foco: Clusters com menos registros, maior probabilidade de cobranças abusivas

Necessário verificar novos prestadores (54)

23

Suspeitos confirmados = monitoramento / possível descredenciamento

Implantação – Resultados / Conclusões (ii)

Vantagens / Trabalhos Futuros

• Sem necessidade de estabelecer limites por procedimentos

• Pode ser ajustado para diminuir incidência de falsos positivos (importante para outros tipos de procedimento)

• Comportamento de “verdadeiros positivos” pode servir como padrão para investigações futuras (e para criação de controles de sistema)

• Expansão para outros procedimentos e tipos de prestador

Confirmação por meio de análise de guias físicias e entrevistas

Setembro 2015

Obrigado!

Tiago Pereira HillermanMPCA UnB – Computação Aplicada, Universidade de Brasíliat_hillerman@yahoo.com.br / 61 9339 0000

25

26

Definindo o número de clusters

Métricas NbClust

• Índices de eficiência para cada n número de clusters

Exemplos:

Dunn’s index: “qualidade” baseada na distância entre clusters e diâmetro de cada cluster

Silhouette: calcula “semelhança” (baseada em distância) de objetos em cada cluster, comparada com a semelhança nos demais clusters.

É utilizada como indicador a média do conjunto de agrupamentos.

27

Média, desvio padrão

top related