métodos estad ísticos para diagn ósticos m édicos · médica (regresión logística) y la ......

Post on 03-Oct-2018

229 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

MM éétodos Estadtodos Estadíísticos para sticos para DiagnDiagnóósticos Msticos Méédicosdicos

Barcelona, Barcelona, uno de marzo de 2008uno de marzo de 2008

Pablo Martínez-CamblorSubdirección de Salud de Guipuzcoa, Donosti.

MODULO: Diseño de proyectos y análisis estadístico (Curso 2008)COOR: Joan B. Soriano. Fundació Caubet-CIMERA Illes Balears .

2

1. INTRODUCCI1. INTRODUCCIÓÓNN

Uno de los problemas que más frecuentemente aparece en la investigación médica es el de saber que variables o, que niveles de una variable, determinan si un determinado individuo pertenece o no a un determinado grupo.

Ejemplo 1: Se sabe que altos niveles de procalcitonina (PCT) y de proteina C-reactiva (PCR) están muy ligados a la presencia de SEPSIS. ¿Cúal de las dos variables nos resulta más útil para determinar si un paciente es o no séptico? ¿A partir de qué niveles?

3

Ejemplo 2: La EPOC (Enfermedad Pulmonar Obstructiva Crónica) viene determinada por una reducción en la función pulmonar de los pacientes que degenera en un deterioro general. Sin embargo, se sabe que la gravedad de la enfermedad no queda determinada únicamente por valores bajos en el %FEV1. Se quiere determinar que otras variables (6MWT, Disnea, IMC, Exacerbaciones, etc...) tienen relación en la gravedad de estos pacientes (medida esta, por ejemplo, en muerte a 3 años).

4

2. OBJETIVOS2. OBJETIVOS

El objetivo principal de esta sesión es afianzar algunos de los conceptos presentes en toda toma de decisiones asícomo la revisión de algunas técnicas estadísticas muy presentes en la literatura médica (regresión logística) y la presentación de otras “más novedosas”(árboles de decisión).

5

2. OBJETIVOS2. OBJETIVOS

� Revisión de conceptos estadísticos básicos.

� “Estudio” del proceso de toma de decisiones.

� Curvas ROC.

� Regresión Logística.

� Árboles de Decisión.

6

3. TEMAS ANTERIORES3. TEMAS ANTERIORES

TEMARIO:

1)Introducción a la Estadística.2)Conceptos Básicos. Estadística Descriptiva

Univariante.3)Estadística Descriptiva Bivariante.4)Introducción a la Inferencia y Modelo

Probabilístico.

Estadística I (Curso 2007-2008).(20 horas lectivas)

7

TEMARIO:

5)Población y Muestra. Estimación de Parámetros e Intervalos de Confianza.

6)Introducción a las Pruebas de Hipótesis y toma de Decisiones.

7)Introducción al Modelo de Regresión Lineal Simple.

8

4. PAQUETES ESTAD4. PAQUETES ESTAD ÍÍSTICOSSTICOS

9

5. ALGUNOS CONCEPTOS B5. ALGUNOS CONCEPTOS B ÁÁSICOSSICOS

Todo proceso de decisión lleva implícito dos fuentes de error (contraste de hipótesis):

� El que se comete cuando a un individuo enfermo se le clasifica como sano.

A la capacidad de un test para acertar con los individuos enfermos se le llama SENSIBILIDAD

� El que se comete cuando a un individuo sano se le clasifica como enfermo.

A la capacidad de un test para acertar con los individuos sanos se le llama ESPECIFICIDAD.

10

Dada una medida (6MWT) a partir de la cuál se quiere diagnosticar/predecir algún suceso (muerte antes del quinto año), lo primero que se debe hacer es elegir un punto de corte. A partir de este punto de corte se puede calcular la sensibilidad y la especificidad del “método”.

Tabla. Estadísticos descriptivos para el test de la marcha

11

A la vista de los datos vamos a tomar como punto de corte 400. Esto es, los individuos que caminen menos de 400 metros serán clasificados como “exitus a los 5 años”.

Tabla. Resultados de la clasificación

12

Surge el problema:

¿Cómo debo fijar el punto de corte?.

Dado que cada problema es diferente y el coste de las equivocaciones es distinto. Debe ser el “investigador”el que decida los pesos a darle a la sensibilidad y a la especificidad.

Una posible solución es utilizar el punto de corte que optimice el índice de Youden .

Y = S + E -1

13

Otra posibilidad (no excluyente) es calcular todas las posibilidades. Esto es, todas las posibles sensibilidades y especificidades para los distintos puntos de corte.

Esta opción se representa de forma gráfica y se conoce como curva ROC (Receiver OperatingCharacteristics).

14

Desde la curva ROC se deriva otro de los indicadores usualmente empleados como medida global de capacidad diagnóstica. El área bajo la curva ROC (AUC)

15

AUC = 0.692 (0.623-0.762)Younden = 0.327Punto de Corte: 462.5 m.Sensibilidad: 73.2%Especificidad: 59.6%

Ejemplo: curvas ROCEjemplo: curvas ROC

16

6. REGRESI6. REGRESIÓÓN LOGN LOGÍÍSTICASTICA

La principal peculiaridad de la regresión logística frente a la regresión usual es que la variable dependiente toma dos únicos valores (0 ó 1) que suelen coincidir con la presencia/ausencia de una determinada característica.

17

Las interpretaciones y los usos de la regresión logística son múltiples lo que hacen que su uso este muy extendido en la literatura científica.

El objetivo es modelar P(X=1), esto es, la probabilidad de tener la característica en estudio.

18

Para ello emplea la función logística (otros modelos son el tobit, probit...)

Aparece el concepto de Odd Ratio

19

Dentro del “problema” que nos ocupa, vamos a tratar de predecir la muerte antes del quinto año de un paciente con COPD utilizando para ello distintas medias: 6MWT, Disnea, FEV1 y BMI (índice de masa corporal).

Tabla. Regresión Logística. Mortalidad antes de cinco años.

20

OTRA INTERPRETACIÓN:Influencia de una variable “corregida” por otra.

Comprobar la influencia del FEV1 corregido por la EDAD (eliminando o, al menos, reducir, los efectos de la edad)

Tabla. Regresión Logística. Mortalidad antes de cinco años.

21

NOTA:Otro método similar a la Regresión Logística pero menos popular es el ANÁLISIS DISCRIMINANTE . Ambos métodos tienen mucha relación, si bien, el AD tiene una generalización mucho más fácil y directa al caso en el que se tengan más de dos grupos. Su objetivo es menos ambicioso ya que no pretende “modelar”, únicamente entender los procesos de la clasificación.

22

7. 7. ÁÁRBOLES DE DECISIRBOLES DE DECISI ÓÓNN

� Objetivo: Se pretende predecir el comportamiento de los individuos (pacientes, población general) ante una determinada característica (enfermedad) que ocupará el lugar de la variable dependiente a través de su comportamiento en otras variables, medidas fisiológicas, etc.. (variables independientes).

23

Aplicación Directa en Investigación Médica. Qué características me permiten diagnosticar una determinada patología. Asignar riesgos de padecerla o no.

La variable DEPENDIENTE puede ser continua o discreta sin embargo, las variables INDEPENDIENTES deben ser discretas, debiendo “categorizarse” las variables independientes continuas

24

Los árboles de decisión se construyen mediante procesos iterativos basados en seleccionar entre las variables predictoras (independientes) la que más convenga a nuestros intereses y aplicar reiteradamente el mismo criterio sobre los subgrupos que se van formando.

25

Los algoritmos más usados son:

1. CHAID. (Chi-square Automatic Interaction Detector, detector automático de interacciones mediante ji-2).

2. C & RT. (Classification and Regression Trees, árboles de Regresión y Clasificación).

3. QUEST. (Quick, Unbiased, Efficient Statistical Tree, árbol estadístico eficiente insesgado y rápido).

26

ALGORITMO CHAID.(Chi-square Automatic Interaction Detector, detector automático de interacciones mediante ji-2).

Este algoritmo se basa en seleccionar la variable que más separa los grupos en estudio usando para ello el criterio de la ji-2 o, de la razón de verosimilitud.

27

CRITERIO CHI-2. (Repaso)

TABLAS DE CONTINGENCIAUna tabla de contingencia es una tabla con dos entradas. Usualmente se utiliza para “describir” dos variables categóricas.

28

Hay una infinidad de medidas de asociación entre variables categóricas. Unas se adaptan mejor a unas situaciones que otras.

29

Obviamente, hay muchos software que desarrollan estos algoritmos aunque, cuando el número de variables no es muy elevado se puede realizar manualmente.

El mas popular es, probablemente, el AnswerTree (de la casa SPSS) aunque dentro de este paquete existe un modulo que realiza este tipo de algoritmos.

30

Ejemplo:

Con las variable: %FEV, 6MWT, Dispnea y BMI categorizadas, tratamos de predecir si el paciente de EPOC va a sobrevivir más de cinco años. Asimismo, también se quiere saber cuales de estas variables y de qué forma intervienen las mismas en esta predicción.

31

32

33

34

35

� Se obtienen perfiles de pacientes en base al riesgo de morir durante los próximos 5 años.

� Con los datos del ejemplo, los pacientes con más riesgo son los que tienen dispnea cuatro (70% fallece antes del quinto año).

� Los pacientes con menor riesgo son los que tienen dispnea cero (87% vive más de cinco años).

36

8. RESUMEN8. RESUMEN

� Fuentes de error en todo diagnóstico

� Conceptos básicos en el proceso de toma de decisiones: sensibilidad, especificidad, punto de corte

� Calidad de un método diagnóstico: índice Youden, AUC…

� Método más modernos/originales: Árboles de decisión.

37

8. BIBLIOGRAF8. BIBLIOGRAF ÍÍAA

http://www.fisterra.com/mbe/investiga/index.asp

http://www.hrc.es/bioest/roc_1.html

Xiao-Hua Zhou, Nancy A. Obuchowski, Donna K. McClish. Statistical Methods in Diagnostic Medicine, Wiley, New York, 2002.

38

Muchas GraciasMuchas Gracias

top related