capítulo 27 - papel de la...

12
Capítulo | 27 | 253 © 2013. Elsevier España, S.L. Reservados todos los derechos Papel de la estadística La estadística no es útil exclusivamente para el análi- sis de los resultados, sino que debe considerarse una parte integrante del método científico que se aplica en diferentes fases de una investigación para facilitar que se alcance el objetivo deseado (cuadro 27.1). En la fase de análisis permite evaluar y cuantificar la variabilidad debida al azar. La premisa previa para su uso es que el estudio haya sido diseñado y ejecutado de forma correcta. Clásicamente, la estadística se diferencia en des- criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar la información y es fundamental en la revisión de los datos recogidos en un estudio para asegurar su calidad y la validez del análisis posterior, así como para describir las características de los sujetos estudiados. La estadística inferencial permite establecer conclusiones referidas a poblaciones a partir de los resultados obtenidos en muestras. Su aplicación en la fase de análisis tiene dos finalidades principales: evaluar la variabilidad aleatoria y controlar los factores de confusión. Las técnicas de análisis estadístico pueden utili- zarse para explorar conjuntos de datos sin hipótesis previas o bien para confirmar hipótesis de trabajo. Ambas finalidades están vinculadas a la naturaleza de los objetivos del estudio, a la actitud con que el investigador se enfrenta a los datos y a los términos en que deberán interpretarse los resultados. Una hipótesis solamente puede confirmarse mediante un estudio diseñado con el propósito de hacerlo. La exploración implica el rastreo de datos en busca de información, sin objetivos concretos ni hipótesis que hayan gobernado el diseño del estudio. La ex- ploración puede servir para sugerir nuevas hipótesis, pero de ningún modo para contrastarlas, sino que la confirmación deberá obtenerse en un nuevo es- tudio diseñado para ello. Ambas finalidades pueden coexistir en un estudio diseñado para confirmar una hipótesis cuando se establecen objetivos secundarios exploratorios. Aunque no están vinculadas a técnicas de análisis concretas, las pruebas de contraste o de significación estadística están dirigidas a confirmar hipótesis, mientras que las técnicas exploratorias son eminentemente gráficas y descriptivas. En este capítu- lo se abordan, sobre todo, las bases de la utilización de la inferencia estadística para confirmar la hipótesis de trabajo y alcanzar el objetivo del estudio. VARIACIONES DEL MUESTREO En estadística, el término población se utiliza para describir todas las posibles observaciones de una determinada variable o todas las unidades sobre las que podría haberse realizado una observación. El significado preciso de este concepto varía en función del contexto en que se utiliza. Puede tratarse de una población de pacientes, de profesionales o de deter- minaciones de laboratorio, e incluso difiere según la localización geográfica y la fuente de sujetos u observaciones utilizada. A menudo no tiene una realidad física concreta, ya que, por ejemplo, la población de pacientes con infección urinaria no existe como tal, sino que el proceso va apareciendo y desapareciendo en diferentes sujetos en función de múltiples y variados factores. En sentido amplio, el término muestra se refiere a cualquier conjunto específico de sujetos u observa- ciones procedentes de una población determinada. Para que sea útil y permita aplicar las técnicas es- tadísticas, se requiere que la muestra tenga un ta- maño razonable y sea representativa de la población de la que procede. Un tamaño grande no asegura la representatividad, sino que ésta radica básicamente

Upload: others

Post on 09-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Capítulo | 27 |

Papel de la estadística

La estadística no es útil exclusivamente para el análi­sis de los resultados, sino que debe considerarse una parte integrante del método científico que se aplica en diferentes fases de una investigación para facilitar que se alcance el objetivo deseado (cuadro 27.1). En la fase de análisis permite evaluar y cuantificar la variabilidad debida al azar. La premisa previa para su uso es que el estudio haya sido diseñado y ejecutado de forma correcta.

Clásicamente, la estadística se diferencia en des­criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar la información y es fundamental en la revisión de los datos recogidos en un estudio para asegurar su calidad y la validez del análisis posterior, así como para describir las características de los sujetos estudiados. La estadística inferencial permite establecer conclusiones referidas a poblaciones a partir de los resultados obtenidos en muestras. Su aplicación en la fase de análisis tiene dos finalidades principales: evaluar la variabilidad aleatoria y controlar los factores de confusión.

Las técnicas de análisis estadístico pueden utili­zarse para explorar conjuntos de datos sin hipótesis previas o bien para confirmar hipótesis de trabajo. Ambas finalidades están vinculadas a la naturaleza de los objetivos del estudio, a la actitud con que el investigador se enfrenta a los datos y a los términos en que deberán interpretarse los resultados. Una hipótesis solamente puede confirmarse mediante un estudio diseñado con el propósito de hacerlo. La exploración implica el rastreo de datos en busca de información, sin objetivos concretos ni hipótesis que hayan gobernado el diseño del estudio. La ex­ploración puede servir para sugerir nuevas hipótesis, pero de ningún modo para contrastarlas, sino que la confirmación deberá obtenerse en un nuevo es­tudio diseñado para ello. Ambas finalidades pueden

© 2013. Elsevier España, S.L. Reservados todos los derechos

coexistir en un estudio diseñado para confirmar una hipótesis cuando se establecen objetivos secundarios exploratorios. Aunque no están vinculadas a técnicas de análisis concretas, las pruebas de contraste o de significación estadística están dirigidas a confirmar hipótesis, mientras que las técnicas exploratorias son eminentemente gráficas y descriptivas. En este capítu­lo se abordan, sobre todo, las bases de la utilización de la inferencia estadística para confirmar la hipótesis de trabajo y alcanzar el objetivo del estudio.

Variaciones del muestreo

En estadística, el término población se utiliza para describir todas las posibles observaciones de una determinada variable o todas las unidades sobre las que podría haberse realizado una observación. El significado preciso de este concepto varía en función del contexto en que se utiliza. Puede tratarse de una población de pacientes, de profesionales o de deter­minaciones de laboratorio, e incluso difiere según la localización geográfica y la fuente de sujetos u observaciones utilizada. A menudo no tiene una realidad física concreta, ya que, por ejemplo, la población de pacientes con infección urinaria no existe como tal, sino que el proceso va apareciendo y desapareciendo en diferentes sujetos en función de múltiples y variados factores.

En sentido amplio, el término muestra se refiere a cualquier conjunto específico de sujetos u observa­ciones procedentes de una población determinada. Para que sea útil y permita aplicar las técnicas es­tadísticas, se requiere que la muestra tenga un ta­maño razonable y sea representativa de la población de la que procede. Un tamaño grande no asegura la representatividad, sino que ésta radica básicamente

253

Page 2: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

Cuadro 27.1 Fases de una investigación en las que interviene la estadística

• Seleccióndelavariablederespuesta• Definicióndeloscriteriosdeselección

delapoblacióndeestudio• Eleccióndelatécnicadeseleccióndelossujetos• Cálculodelnúmerodesujetosnecesarios• Seleccióndelasvariablesquedebensermedidas• Medicióndelasvariables(precisiónyexactitud)• Descripcióndelamuestradesujetosestudiados• Estimacióndelamagnituddelefectoorespuesta

observada• Comparacióndelefectoobservadoendiferentes

grupos• Controldelosfactoresdeconfusión• Interpretacióndelosresultados

en que la muestra se haya escogido aleatoriamente y esté libre de sesgos.

Se estudian muestras en lugar de poblaciones por criterios de eficiencia. El propósito fundamental del muestreo es estimar el valor de una determinada varia­ble (parámetro) en la población, a partir de un núme­ro menor de observaciones (muestra). Sin embargo, tan sólo se estudia una de las múltiples muestras que podrían seleccionarse de la población de referencia, en cada una de las cuales podría obtenerse un valor dife­rente, simplemente por azar. Las diferentes técnicas de la estadística inferencial se fundamentan en que esta variabilidad inherente al proceso de muestreo sigue unas leyes conocidas y puede ser cuantificada.

Así, en el caso de una variable cuantitativa, en cada muestra se obtendrá una media diferente. Si se representa gráficamente la distribución de las medias de todas las muestras posibles de un mismo tamaño, se puede comprobar que sigue la ley normal. Esto es cierto si la variable es normal en la población de origen. Pero, aunque no lo sea, la distribución de las medias muestrales tiende a ser normal a medida que su tamaño aumenta, y se acepta que, si las mues­tras son de más de 30 sujetos, la distribución de sus medias es normal.

Esta distribución de medias muestrales tiene dos características que la hacen especialmente interesante. La primera es que su media es la media de la población de la que proceden las muestras; es decir, las medias muestrales se distribuyen normalmente alrededor de la media poblacional desconocida que se quiere estimar. La segunda es que la desviación estándar de dicha dis­tribución tiene el valor σ/ √

__ n , donde σ es la desviación

estándar de la población de origen y n el tamaño de la muestra. Este valor es conocido como error estándar

254

de la media (EEM), y mide la dispersión de las medias muestrales respecto de la media poblacional. No debe confundirse con la desviación estándar, cuyos valores miden la dispersión de los valores de la variable (no de las medias muestrales) en los sujetos de la población (σ) o de la muestra (DE,s), respectivamente (fig. 27.1). Puede deducirse fácilmente que el EEM disminuye cuando aumenta el tamaño de la muestra n, lo que explica el hecho de que las muestras grandes estimen el valor poblacional con mayor precisión.

En el caso de las variables cualitativas, la distribución de la proporción sigue la ley binomial. Sin embargo, cuando los productos n·p y n·(1 − p) son superiores a 5, la distribución se asemeja bastante a la normal. Así, las proporciones observadas en las muestras se distribu­yen alrededor de la verdadera proporción poblacional, y la dispersión de esta distribución se mide mediante el error estándar de la proporción (EEP), cuyo valor es

√_________

p (1−p)/n , y tiene características similares al EEM.

estimación de un parámetro poblacional: interValo de confianza

Un objetivo frecuente en la investigación médica es estimar un parámetro poblacional a partir de los valores que la variable de interés adopta en los indi­viduos de una muestra. Si la variable es cuantitativa, la media (m) y la desviación estándar (DE) obser­vadas en la muestra son la mejor estimación dis­ponible de los verdaderos valores de los parámetros poblacionales. Pero ¿cuáles serían los resultados si se repitiera el estudio en múltiples ocasiones?

Ejemplo 27.1. Supongamos que en una muestra de 60 sujetos se observa una media de presión arterial sis­tólica (PAS) de 150 mmHg, con una DE de 20 mmHg, y que se desea conocer el verdadero valor de la PAS media en la población de referencia. En principio, el valor más probable es la estimación puntual obtenida en la muestra (150 mmHg), pero, dado que si se hu­biera estudiado una muestra diferente probablemente se habría obtenido un resultado distinto, se necesita una medida de la precisión de esta estimación, lo que se hace mediante el cálculo del llamado intervalo de confianza (IC) (cuadro 27.2). Habitualmente se trabaja con una confianza del 95%, es decir, con un valor a del 5%, que corresponde a un valor Z

a de

1,96. Aplicando la fórmula, se obtendría un IC del 95%, que sería aproximadamente de 150 ± 5 mmHg, lo que significa que hay un 95% de confianza de que el valor medio de la PAS de la población de referencia se encuentre entre 145 y 155 mmHg.

Page 3: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

CapítuloPapel de la estadística | 27 |©

Else

vier

. Fo

toco

pia

r si

n a

uto

riza

ció

n e

s u

n d

elit

o.

Figura 27.1 Diferenciaentredesviaciónestándaryerrorestándardelamedia.

De forma similar se calcularía el IC en el caso de una variable cualitativa (ver cuadro 27.2).

El IC proporciona mucha más información que la estimación puntual, ya que permite evaluar la precisión con que se ha estimado el parámetro poblacional; es de­cir, entre qué límites se tiene una determinada confian­za de que esté situado su verdadero, pero desconocido, valor. Si se repitiera el estudio en 100 ocasiones, el IC incluiría el verdadero valor en 95 de ellas. Sin embargo, no puede descartarse totalmente que el estudio corres­ponda a una de las cinco ocasiones restantes.

De las fórmulas del cuadro 27.2 se deduce que un aumento del número de sujetos conduce a un IC más estrecho y a un aumento de la precisión de la estimación. La amplitud del IC depende también del grado de confianza que se utilice, y aumenta a medida que se incrementa la confianza deseada.

En el cálculo del IC se asume que se ha estudiado una muestra aleatoria y representativa de la población

de referencia. Al interpretarlo, hay que tener en cuenta la posibilidad de la existencia de otras fuentes de error no debidas al azar (errores sistemáticos o sesgos). Si éstas existen, o si la muestra no es aleatoria, el error de la estimación puede ser mayor que el sugerido por la amplitud del intervalo.

Siempre que se realizan inferencias sobre paráme­tros poblacionales a partir de criterios estadísticos muestrales, los resultados deben expresarse como IC, y no sólo como estimaciones puntuales, para poder valorar la precisión de la estimación.

contraste de hipótesis

Aunque la situación es similar a la anterior, dado que se pretende descubrir algo sobre las poblaciones a partir del estudio de muestras, las pruebas de con­traste de hipótesis, o de significación estadística,

255

Page 4: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

Cuadro 27.2 Cálculo del intervalo de confianza (IC) en la estimación de un parámetro poblacional

ICdeunamedia(variablecuantitativa)*:

x–±(Za⋅EEM)

siendoEEM= s ____ √___

n

ICdeunaproporción(variablecualitativa)**:

p±(Za⋅EEP)

siendoEEP=√________

p⋅(1−p)

_______ n

x–:mediaobservadaenlamuestra.s:desviaciónestándarobservadaenlamuestra.n:númerodeindividuosdelamuestra.EEM:errorestándardelamedia.p:proporciónobservadaenlamuestra.EEP:errorestándardelaproporción.Za:valordelavariablenormaltipificada

correspondientealvaloraparaunvalordeconfianza(1− a).

*Estecálculosebasaenladistribuciónnormal.ElvalordeZaparaunICdel95%es1,96.Paramuestrasdetamañoinferiora30individuos,estevalordebesustituirse poreldeladistribucióndelatdeStudent-Fisherpara(n−1)gradosdelibertad.

**Lasvariablescualitativasnopresentanunadistribuciónnormal.Lasfórmulasdelatablasebasanenunaaproximaciónalanormalidad,aplicablecuandolosproductosnpyn·(1−p)sonmayoresde5.Encasocontrario,debeaplicarseunacorrecciónalvalordeZa.

valoran la variabilidad debida al azar de forma diferente a la estimación de los parámetros.

Existen diversas pruebas estadísticas aplicables en diferentes situaciones en función del número de grupos que se comparan, la escala de medida de las variables, el número de sujetos analizados, etc. (anexo 9). En este capítulo se presentan los funda­mentos comunes a todas ellas, haciendo especial énfasis en los aspectos relacionados con la inter­pretación de los resultados obtenidos.

Supongamos que existe interés en comparar dos tratamientos (un diurético D y el tratamiento es­tándar E) para determinar cuál de ellos es el más eficaz en el control de la presión arterial. Se diseña un ensayo clínico, distribuyendo aleatoriamente 60 pacientes hipertensos en dos grupos, cada uno de los cuales recibe uno de los tratamientos. A los 3 meses, el porcentaje de individuos controlados en cada grupo es del 70 y el 50%, respectivamente. ¿Qué conclusión puede obtenerse a la vista de estos

256

resultados? ¿Hasta qué punto es posible que se deban simplemente al azar (variaciones del muestreo) y que en realidad no exista ninguna diferencia de eficacia entre ambas intervenciones?

hipótesis nula e hipótesis alternativa

Siguiendo con el ejemplo anterior, el análisis parte de la hipótesis de que no existen diferencias entre los porcentajes de hipertensos controlados observados en ambos grupos. La prueba de significación es­tadística intentará rechazar esta hipótesis, conocida como hipótesis nula (H

o). Si se consigue, se aceptará la hipótesis alternativa (Ha), según la cual existen diferencias entre ambos grupos.

El primer paso es formular la Ho. A continuación se calcula, mediante la prueba estadística más adecuada, la probabilidad de que los resultados observados puedan deberse al azar, en el supuesto de que la H

o sea cierta. En otras palabras, la probabilidad de que, a partir de una población de referencia, puedan obtenerse dos muestras que presenten unos valores tan diferentes como los observados simplemente por azar. Esta pro­babilidad es el grado de significación estadística, que suele representarse con la letra p. En tercer lugar, basándose en esta probabilidad, se decide si se rechaza o no la H

o. Cuanto menor sea la p, es decir, cuanto menor sea la probabilidad de que el azar pueda haber producido los resultados observados, mayor será la evidencia en contra de la H

o y, por tanto, mayor será la tendencia a concluir que la diferencia existe en la realidad.

Supongamos que, en el ejemplo, una vez aplicada la prueba estadística adecuada, se obtiene un valor de p aproximadamente de 0,10. Esto significa que, si la H

o fuera cierta, la probabilidad de que el azar pue­da producir unos resultados como los observados es del 10%, es decir, que existe un 10% de probabilidad de que dos muestras de 30 sujetos obtenidas de una misma población presenten unos porcentajes del 70 y el 50% sólo por variabilidad aleatoria.

Para decidir si se rechaza o no la Ho, debe fijarse

previamente un valor de p por debajo del cual se con­sidera que se dispone de la suficiente evidencia en su contra para rechazarla. Este valor se conoce como valor de significación estadística a. De forma arbitraria, y por convenio, se fija habitualmente en el 5% (0,05).

Dado que el valor de p obtenido en el ejemplo es de 0,10, superior al valor de significación de 0,05, se considera que la probabilidad de haber obtenido es­tos resultados por azar es demasiado elevada y que, por tanto, no se dispone de la suficiente evidencia para rechazar la H

o. De este modo, se concluye que la diferencia observada en el porcentaje de pacientes controlados no es estadísticamente significativa. No significa que no exista diferencia en los porcentajes

Page 5: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

CapítuloPapel de la estadística | 27 |©

Else

vier

. Fo

toco

pia

r si

n a

uto

riza

ció

n e

s u

n d

elit

o.

de ambos grupos, sino que no se ha encontrado la suficiente evidencia para decir que son diferentes.

Supongamos ahora que en el grupo que recibió el tratamiento E sólo se hubieran controlado 12 pa­cientes a los 3 meses, lo que supondría un porcentaje observado en este grupo del 40%. Si se repiten los cálculos, se obtiene un valor de p < 0,02. Como este valor es inferior a 0,05, se considera que la diferencia observada es estadísticamente significativa, ya que es poco probable (p < 5%) que el azar pueda haber producido estos resultados. La respuesta a la pregun­ta de si esta diferencia se debe al nuevo tratamiento D dependerá del diseño y la ejecución correctos del estudio. El valor de p sólo informa de la existencia de una diferencia entre ambos grupos, y de que muy probablemente no se deba al azar, pero no informa sobre la causa de dicha diferencia.

El valor de p no es una medida de la fuerza de la asociación. Un estudio en el que se obtenga un valor de p < 0,001 no quiere decir que la asociación encontrada sea más fuerte (o la diferencia más importante) que la de otro estudio en que sea de 0,04. Sólo quiere decir que es más improbable que su resultado sea por azar.

No hay que ser excesivamente rígido en el límite del valor de significación. Un valor de p = 0,048 es estadísticamente significativo con el umbral del 5%, y uno de 0,052, en cambio, no lo es, pero en ambos casos la probabilidad de observar el resultado por azar es prácticamente la misma, y muy próxima al 5%. Por ello, es conveniente indicar el valor de p al dar los resultados, sobre todo si es próximo al valor de significación, en lugar de limitarse a decir si existe o no significación estadística. De esta forma, el lector podrá valorar adecuadamente los resultados.

pruebas unilaterales y pruebas bilaterales

En ocasiones, lo que interesa no es determinar si exis­ten diferencias entre dos tratamientos, sino evaluar si un nuevo fármaco es mejor que otro. En este caso, la hipótesis alternativa no es que D y E difieran, sino que D es mejor que E. Por tanto, la H

o que se va a contrastar es que D no difiere o es peor que E. Dado que sólo interesa un sentido de la comparación, se habla de pruebas unilaterales, o de una cola.

¿Cómo afecta este hecho a la prueba de signifi­cación? No es la prueba en sí misma la que se ve afectada. El cálculo es idéntico al anterior. Lo que se modifica es el valor de p. Como la distribución de Z sigue la ley normal y, por tanto, es simétrica, en las pruebas unilaterales el valor de p corresponde a la mitad del valor a, dado que sólo se está interesado en uno de los extremos.

error a y error b

En estadística no puede hablarse de certeza absoluta. Sea cual sea la decisión que se tome respecto a la hipótesis nula, se corre un cierto riesgo de equivo­carse (fig. 27.2).

La realidad no es conocida, ya que, si lo fuera, no sería necesario realizar el estudio. Si no se rechaza la H

o, y ésta es cierta, no se comete ningún error. Si se rechaza y es falsa, tampoco. Pero ¿qué pasa en las otras dos situaciones?

En un estudio puede concluirse que existe una di­ferencia cuando en realidad no la hay. Es decir, puede rechazarse la H

o cuando en realidad es cierta. Si esto ocurre, la decisión es incorrecta y se comete un error, conocido como error tipo I o error a. La probabilidad de cometer este error es la de que, si se concluye que existe una diferencia significativa, ésta sea en realidad debida al azar. Si se hace un símil entre una prueba estadística y una diagnóstica, equivale a la probabi­lidad de obtener un resultado falso positivo. Esto es precisamente lo que mide el valor de p, o grado de significación estadística de la prueba.

Si, por el contrario, se concluye que la diferencia no es estadísticamente significativa, es decir, si no se rechaza la H

o, puede ocurrir que la hipótesis sea falsa y que, en realidad, exista una diferencia entre ambos grupos, en cuyo caso se cometerá otro tipo de error, llamado error tipo II o b. Utilizando el símil con la prueba diagnóstica, equivale a la probabilidad de obtener un resultado falso negativo. Su valor com­plementario 1 − b, denominado potencia, o poder estadístico, indica la capacidad que tiene la prueba para detectar una diferencia que existe en la realidad. Lógicamente, cuanto mayor es la diferencia y más elevado el número de individuos estudiados, mayor capacidad existe para detectarla; es decir, el poder estadístico es mayor y, por tanto, la probabilidad de cometer un error b es menor.

Existe una interdependencia entre el grado de sig­nificación p, la potencia estadística, el número de individuos estudiados y la magnitud de la diferencia observada. Conociendo tres de estos parámetros, puede calcularse el cuarto. Así, antes de iniciar un estudio, puede calcularse el número de sujetos ne­cesario, fijando a priori el grado de significación, la potencia estadística y el valor de la diferencia que quiere detectarse. De igual modo, si una vez acabado el estudio se concluye que no se ha encontrado una diferencia estadísticamente significativa, dado que n, p y la diferencia observada son conocidas, pue­de calcularse el poder estadístico. No es lo mismo concluir que no se ha encontrado una diferencia estadísticamente significativa entre dos tratamientos cuando se tiene una probabilidad del 90% de haberla

257

Page 6: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

Figura 27.2 Resultadosdeunapruebadesignificaciónestadística.

detectado si hubiera existido (b = 0,10), que cuando esta probabilidad es sólo del 20% (b = 0,20).

¿diferencia estadísticamente significativa o clínicamente relevante?

Un resultado estadísticamente significativo no im­plica que sea clínicamente relevante. El valor de p no mide la fuerza de la asociación. Pueden obtenerse valores pequeños de p (resultados estadísticamente significativos) simplemente estudiando un número elevado de sujetos. Al aumentar el tamaño de la muestra se incrementa el poder estadístico para detectar incluso pequeñas diferencias.

Ejemplo 27.2. Supongamos un estudio en que se comparan dos fármacos, D y E, para el tratamiento de la hipertensión arterial. El porcentaje de pacientes controlados en el grupo que ha recibido el fármaco D es del 70%, y en el que ha sido tratado con E, del 65%. En la tabla 27.1 se aprecia que la conclusión de si esta diferencia es o no estadísticamente significati­va depende del número de individuos. Estudiando 30 pacientes en cada grupo, se concluiría que la dife­

258

rencia no es estadísticamente significativa. A medida que aumenta el tamaño de los grupos, aumenta el va­lor de Z y disminuye el de p. Al estudiar 700 pacientes en cada grupo ya se alcanza el nivel de significación estadística 9 del 0,05. Y si se estudiaran 2.000 indivi­duos, el valor de p sería menor de 0,001.

La diferencia que se considera clínicamente rele­vante depende de su magnitud y de otros factores, como la frecuencia y la gravedad de los efectos secundarios de ambos fármacos, la facilidad de administración o su coste económico.

estimación frente a significación estadística

Al analizar los resultados de un estudio, los inves­tigadores están interesados no sólo en saber si una diferencia o una asociación son estadísticamente sig­nificativas, sino también en determinar su magnitud. La diferencia observada en el estudio es la mejor esti­mación puntual de dicha magnitud. Pero, dado que si se repitiera el estudio con otras muestras podrían observarse resultados de diferente magnitud, hay que

Page 7: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

CapítuloPapel de la estadística | 27 |©

Else

vier

. Fo

toco

pia

r si

n a

uto

riza

ció

n e

s u

n d

elit

o.

Tabla 27.1 Influencia del número de sujetos estudiados sobre el grado de significación estadística de la comparación de los porcentajes de pacientes controlados con dos tratamientos: D (70%) y E (65%) (ejemplo 27.2)

Número de sujetos estudiados por grupo Valor de Z* Valor de p

30 0,41 0,68

100 0,76 0,45

200 1,06 0,29

500 1,69 0,09

700 2,00 0,05

1.000 2,39 <0,02

2.000 3,38 <0,001

*ValordelaZdecomparacióndedosproporciones.

calcular un intervalo del que se tenga una determinada confianza de que contiene la verdadera magnitud del parámetro de interés, tanto si se trata de una diferencia (cuadros 27.3 y 27.4) como de una medida de asocia­ción (anexo 2). Existen fórmulas para el cálculo de los IC en cualquier situación.

Cuando se utiliza como medida del efecto una diferencia, si el IC del 95% incluye el valor 0, que es el que corresponde a la H

o (ausencia de diferencia entre ambos grupos), se concluirá que el resultado no es estadísticamente significativo, ya que no puede des­cartarse que ése sea el verdadero valor. Si, por el con­trario, el IC excluye este valor 0, se concluirá que la diferencia observada es estadísticamente significativa, ya que puede descartarse dicho valor (con un riesgo de error inferior al 5%). Por tanto, el IC, además de indicar si la diferencia es o no estadísticamente signi­ficativa, permite conocer entre qué límites es probable que se encuentre la verdadera diferencia, lo que es muy útil en la interpretación de los resultados.

Ejemplo 27.3. Supongamos un estudio que com­para la eficacia de dos tratamientos A y B en dos grupos de 30 pacientes. Se observa una diferencia en el porcentaje de éxitos del 20% (70 – 50%) a favor del tratamiento B, que no es estadísticamente significativa (p = 0,12). El IC del 95% de la diferencia entre los dos tratamientos es:

IC 95%: 0,2±0,24; es decir, de − 4a 44%

Con un 95% de confianza, la verdadera magnitud de la diferencia está en el intervalo comprendido en­tre un 4% a favor del tratamiento A y un 44% a favor de B. Dado que una diferencia del 0% es posible, no puede descartarse que éste sea su verdadero valor,

por lo que el resultado no es estadísticamente sig­nificativo. En cambio, el IC informa, además, que también son posibles grandes diferencias a favor de B, y que son improbables grandes diferencias a favor de A. Aunque los resultados siguen sin ser concluyentes, se dispone de más información para interpretarlos de forma adecuada. El IC cuantifica el resultado encon­trado y provee un rango donde es muy probable que se encuentre el valor real que se está buscando.

Ejemplo 27.4. Supongamos un estudio que compara la eficacia de dos tratamientos A y B en dos grupos de 80 pacientes. Se observa una diferencia del 5% (65 − 60%) a favor del tratamiento B, que es esta­dísticamente significativa (p = 0,04). El IC del 95% de esta diferencia es:

IC 95%: 0,05±0,047; es decir, de 0,3 a 9,7%

Al excluir el valor 0% se concluye que la diferencia es estadísticamente significativa. El IC informa que la diferencia es de pequeña magnitud, como máximo de aproximadamente un 10% a favor de B.

Los IC tienen otra ventaja adicional, y es que ex­presan los resultados en las unidades en que se han realizado las mediciones, lo que permite al lector considerar críticamente su relevancia clínica.

Al diseñar un estudio, los autores establecen la magnitud mínima de la diferencia que consideran de relevancia clínica, en función de la cual han cal­culado el tamaño necesario de la muestra. Al acabar el estudio, la interpretación del resultado observa­do y de su IC debe tener en cuenta también esta magnitud. Además de determinar si el IC del 95% excluye el valor 0 para saber si el resultado es estadís­ticamente significativo, también debe determinarse

259

Page 8: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

Cuadro27.4 Cálculo del intervalo de confianza (IC) de la diferencia entre dos medias

ICdeladiferenciadedosmedias*a)Muestrasindependientes

(x–A−x–B)±Za⋅EED

siendoEED=s⋅ √________

1 __ nA + 1 __ nB

ys=√_________________

sA

2 (nA−1)+sB2 (nB−1) _______________

nA+nB−2

b)Muestrasapareadas

x–d±Za⋅EEx–d

x–A,x–B:mediasobservadasenlasmuestrasAyB.sA,sB:desviacionesestándarobservadas

enlasmuestrasAyB.nA,nB:númerodesujetosdelasmuestrasAyB.EED:errorestándardeladiferencia.x–d:mediadelasdiferenciasdelasdosmediciones

encadaindividuo(seriesapareadas).EEx–d:errorestándardelamediadelasdiferencias

individuales.Za:valordelavariablenormaltipificada

correspondientealvalora,paraunnivel deconfianza(1− a).

*Elcálculosebasaenladistribuciónnormal.Elvalor deZaparaunICdel95%es1,96.Paramuestrasdetamañoinferiora30individuos,estevalordebesustituirse poreldelatdeStudentpara(n−1)gradosdelibertad.Asímismo,elcálculorequierequenoexistandiferenciassignificativasentrelasdesviacionesestándardeambasmuestras.

Cuadro27.3 Cálculo del intervalo de confianza (IC) de la diferencia entre dos proporciones

ICdeladiferenciadedosproporciones*a)Muestrasindependientes

(PA−PB)±Za⋅EED

siendoEED=√___________________

PA⋅(1−PA)

________ nA +

PB⋅(1−PB) _______ nB

b)Muestrasapareadas

(PA−PB)±Za⋅EED

siendoEED=1 __ n √_______________

b + c − (b − c)2

______ n

PA,PB:proporcionesobservadasenlasmuestrasAyB.nA,nB:númerodesujetosdelasmuestrasAyB.b,c:númerodecasosquepresentanvalores

diferentesenambasmediciones(seriesapareadas).

n:númerototaldecasos.EED:errorestándardeladiferencia.Za:valordelavariablenormaltipificada

correspondientealvalora,paraunniveldeconfianza(1− a).

*Lasvariablescualitativasnopresentanunadistribuciónnormal.Lasfórmulasdelatablacorresponden aunaaproximaciónalanormalidad,aplicablecuandotodoslosproductosn·PA·n·(1−PA),n·PByn·(1−PB)sonmayoresde5.Encasocontrario,debenaplicarsecorreccionesenelvalordeZa.

si incluye o excluye el valor de la mínima diferencia de relevancia clínica, para poder evaluar si el es­tudio es concluyente acerca de la existencia de una diferencia clínicamente importante.

Ejemplo 27.5. En la figura 27.3 se presentan seis posi­bles resultados de un estudio que compara dos gru­pos y utiliza como medida del resultado la diferencia entre los porcentajes observados en cada uno de ellos. Supongamos que los investigadores establecieron a priori que la mínima diferencia de relevancia clínica era del 20%.

Situación A. Se observa una diferencia del 10% (IC 95%: −5 a +25%), que no es estadísticamente signifi­cativa, ya que el IC incluye el valor 0. Pero el valor 20% también es un valor posible, ya que está situado en el interior del IC. Se trata, por tanto, de un resultado que no permite descartar ninguna conclusión.

Situación B. En esta ocasión se observó una diferen­cia entre los grupos del 5% (IC 95%: −5 a +15%). No es estadísticamente significativa, ya que el IC incluye

260

el valor 0, pero excluye el valor 20%. Así pues, el resultado es negativo en el sentido de que no puede descartarse que los grupos sean iguales, pero, aunque fueran diferentes, es muy improbable que la diferen­cia sea mayor del 15%. Por tanto, puede descartarse que exista una diferencia de relevancia clínica.

Situación C. La diferencia observada del 10% (IC 95%: +5 a +15%) es estadísticamente significativa, ya que el IC excluye el valor 0. Dado que el límite superior del IC no alcanza el valor 20%, puede con­cluirse que existe una diferencia, pero que ésta no es de relevancia clínica.

Situación D. La diferencia observada es del 15% (IC 95%: +5 a +25%), estadísticamente significativa y potencialmente importante, ya que el valor 20% es un valor posible. Así pues, el estudio no es del todo concluyente.

Situación E. Similar a la anterior. Aunque la dife­rencia observada es mayor del 20%, el resultado no es del todo concluyente, ya que el límite inferior del

Page 9: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

CapítuloPapel de la estadística | 27 |©

Else

vier

. Fo

toco

pia

r si

n a

uto

riza

ció

n e

s u

n d

elit

o.

Figura 27.3 Posiblesresultadosdeunestudioquecomparadosgruposyutilizacomomedidadelefectoladiferenciaentrelosporcentajesobservados.Seconsideraquelamínimadiferenciaderelevanciaclínicaesdel20%(ejemplo27.5).

IC está por debajo del 20% e indica que la verdadera diferencia podría ser inferior a este valor.

Situación F. La diferencia observada es del 30%. Dado que el límite inferior del IC es mayor del 20%, este resultado es estadísticamente significativo y concluyente a favor de la existencia de una diferencia de relevancia clínica.

Cuando se utiliza una medida relativa del efecto (riesgo relativo, odds ratio, etc.), la H

o de igualdad entre los grupos corresponde al valor 1, ya que se trata de un cociente y no de una diferencia. Por tanto, cuando el IC del 95% de una medida relativa incluye el valor 1, el resultado no es estadísticamente significativo.

Aunque las pruebas de significación continúan siendo los procedimientos estadísticos más emplea­dos, las ventajas de la utilización complementaria de los IC en el análisis e interpretación de los resulta­dos, tanto si el objetivo es la estimación de paráme­tros como el contraste de una hipótesis, hacen que cada vez se les conceda una mayor importancia y las directrices para la publicación de estudios cien­tíficos recomiendan que se presenten los resultados principales con su correspondiente IC en lugar de informar solamente del valor de p.

comparaciones múltiples

En cualquier estudio se realizan habitualmente múl­tiples comparaciones; por ejemplo, cuando se evalúa

si los grupos difieren por alguna variable, cuando se comparan diferentes variables de respuesta o cuando se analizan diversos subgrupos de sujetos. Efectuar comparaciones múltiples tiene dos grandes inconvenientes:

• La realización de pruebas para cada variable por separado ignora el hecho de que muchas de ellas pueden estar relacionadas entre sí, de forma que el resultado de una prueba estadística determi­nada puede estar influido por diferencias en la distribución de otras variables relacionadas.

• Si cada una de las pruebas estadísticas se realiza con el nivel de significación prefijado del 5%, en promedio, 5 de cada 100 comparaciones pueden resultar significativas sólo por azar. Al realizar múltiples comparaciones, aumenta la probabili­dad de obtener algún resultado estadísticamente significativo que no refleje una diferencia real.

Para estimar la probabilidad de obtener un resul­tado significativo por azar tras realizar un número n de pruebas estadísticas, cada una de ellas con el nivel de significación a, puede usarse la llamada desigualdad de Bonferroni, de la que se deriva la si­guiente fórmula:

Pr = 1−(1−a)n

donde Pr representa la probabilidad de encontrar un resultado significativo.

261

Page 10: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

Ejemplo 27.6. Supongamos que se realizan 8 com­paraciones independientes, cada una de ellas con el nivel de significación de 0,05. La probabilidad de que alguna de estas comparaciones conduzca a un resultado significativo simplemente por azar es:

Pr = 1−(1−0,05)8 = 0,336

es decir, existe un 33% de probabilidades de come­ter algún error a, y no el 5% con el que se deseaba trabajar.

Puede utilizarse como aproximación el producto del valor de significación por el número de pruebas realizadas (n·a). En el ejemplo, este valor sería 0,40, que, como puede observarse, sobrestima ligeramente dicha probabilidad.

La solución más adecuada a este problema es reducir en lo posible el número de comparaciones que realizar, y aplicarlas solamente para contrastar hipótesis previas, y asignar prioridades antes del aná­lisis, para decidir cuál es la comparación principal y cuáles las secundarias, de forma que estas últimas se utilicen para matizar la respuesta a la primera.

Otra solución es dividir el valor de significación deseado por el número de pruebas que se van a rea­lizar y obtener así un valor de significación corregido para aplicarlo a cada una de las pruebas. Este procedi­miento se conoce como corrección de Bonferroni. En el ejemplo 27.6, si se desea mantener el valor de signifi­cación global del 0,05, cada una de las pruebas deberá realizarse con el valor corregido de 0,05/8 = 0,00625.

La corrección de Bonferroni asume que las compa­raciones son independientes, por lo que no resulta adecuada cuando los análisis están mutuamente asociados.

Ejemplo 27.7. Supongamos que un estudio utiliza como variable principal la variación en los valores de hemoglobina, y se observa una reducción estadística­mente significativa. Al analizar también los valores de hematocrito, también se obtiene una disminución significativa, pero al aplicar la corrección de Bonfe­rroni, la reducción de la hemoglobina deja de ser estadísticamente significativa. Este hecho no parece lógico, ya que realmente la variación del hematocrito estaría confirmando el resultado principal. El proble­ma es que las comparaciones no son independientes, ya que se trata de parámetros muy correlacionados (como el hematocrito y la hemoglobina), de manera que si el resultado es significativo en uno de ellos, es probable que lo sea también en el otro.

El inconveniente principal de la corrección de Bonferroni es que protege excesivamente contra la posibilidad de rechazar de forma errónea alguna de las hipótesis nulas a costa de disminuir la poten­

262

cia de la prueba. Dado que el intento de ajustar el efecto de la multiplicidad de análisis podría requerir establecer niveles de significación estadística absur­damente pequeños, parece más razonable adoptar una actitud conservadora al interpretar los resultados de análisis múltiples y valorar su consistencia entre las diferentes variables. Una vez más, lo ideal sería definir a priori la variable principal y unas pocas variables secundarias como protección frente a este problema. No sería lógico que la interpretación de los resultados observados fuera diferente según el núme­ro de pruebas estadísticas que se llevan a cabo. Si, por ejemplo, se comparan dos pautas de quimioterapia y se observa una diferencia en las tasas de remisión, el hecho de considerarla o no estadísticamente sig­nificativa no debería depender de si se han evaluado además otros parámetros, como la supervivencia, las complicaciones o la calidad de vida.

De hecho, existen opiniones contrarias al uso rutinario de este ajuste, fundamentalmente cuando se trata de múltiples resultados, aunque parece más adecuado su uso cuando se comparan diferentes subgrupos o se realizan análisis secuenciales. Una al­ternativa más adecuada es el empleo de técnicas mul­tivariantes que tomen en consideración las relaciones que existen entre las variables que se comparan.

Un problema similar puede presentarse en es­tudios con un seguimiento prolongado, cuando el investigador decide analizar sus datos repetidamente a medida que el estudio progresa. El uso del valor de significación estadística según el método habitual no resulta apropiado, ya que el cálculo convencional asume que el tamaño de la muestra es un valor fijo, y que los resultados del estudio se analizarán una única vez con los datos de todos los sujetos. Por tanto, si un investigador analiza los datos en diversas ocasiones, la probabilidad de alcanzar un resultado significativo es mayor que la deseada. Cuando se efectúa este tipo de estudios, lo mejor es utilizar un diseño secuencial, en el que no es necesario asumir que el análisis se realizará una sola vez, y en el que las normas para finalizar el estudio permiten la evaluación continuada de los datos.

análisis multivariante

Hay veces en las que interesa considerar la influen­cia de más de dos variables simultáneamente. Ello requiere técnicas sofisticadas, basadas en modelos matemáticos complejos, agrupadas bajo el nombre genérico de análisis multivariante.

Existen múltiples técnicas estadísticas multivarian­tes. En investigación clínica y epidemiológica, las más utilizadas son las que analizan la relación entre una variable dependiente (variable de respuesta) y un grupo

Page 11: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

CapítuloPapel de la estadística | 27 |©

Else

vier

. Fo

toco

pia

r si

n a

uto

riza

ció

n e

s u

n d

elit

o.

de variables independientes (factor de estudio y varia­bles que controlar). Estas técnicas implican la cons­trucción de un modelo matemático. La elección de un modelo u otro dependerá del diseño del estudio, la naturaleza de las variables y las interrelaciones entre el factor de estudio, la variable de respuesta y las res­tantes variables incluidas en el modelo (anexo 9).

Estas técnicas pueden aplicarse con las siguientes finalidades:

• Proporcionar una estimación del efecto de una variable independiente principal (factor de estudio) sobre una dependiente (variable de res­puesta), ajustada por un conjunto de factores o variables independientes (potenciales factores de confusión y modificadores del efecto).

Ejemplo 27.8. Supongamos un ensayo clínico aleatorio que evalúa el efecto de un nuevo fármaco (variable independiente principal) sobre la coleste­rolemia (variable dependiente), controlando la in­fluencia de la edad y el sexo de los sujetos (variables independientes).

• Describir la relación que existe entre un conjunto de variables independientes (sin identificar una de ellas como principal) y una variable dependiente, y la contribución de cada una de ellas a la relación.

Ejemplo 27.9. Supongamos un estudio transversal que pretende evaluar, de entre un conjunto de varia­bles independientes (colesterol, edad, sexo, gluce­mia, etc.), cuáles están asociadas con una variable dependiente (cifras de presión arterial).

• Predecir el valor de una variable dependiente en función de los valores que toma un conjunto de variables independientes.

Ejemplo 27.10. Supongamos un estudio de cohortes en el que se desea obtener una ecuación que prediga el riesgo cardiovascular (variable dependiente) en función de la edad, el sexo, las cifras de presión ar­terial, el consumo de tabaco y las cifras de colesterol de los sujetos (variables independientes).

Las técnicas que relacionan un conjunto de varia­bles independientes con una dependiente derivan del modelo de regresión lineal, y pueden clasificarse a partir de la escala de medida de la variable depen­diente (anexo 9).

Cuando la finalidad del análisis es predictiva o descriptiva de las relaciones entre variables, lo que interesa es obtener una ecuación o un modelo lo más sencillo posible, de forma que la selección de las variables que formarán el modelo se basa en criterios

de significación estadística. En cambio, cuando la finalidad es estimar el efecto del factor de estudio controlando determinados factores de confusión, no puede confiarse en que la selección automática in­cluya las variables que interesa controlar, ya que no siempre están asociadas de forma estadísticamente significativa, por lo que se utilizan otros procedi­mientos que obligan a la selección por parte del investigador de las variables que desea controlar.

La correcta utilización de la estadística en el aná­lisis de los datos es fundamental para poder inter­pretarlos de forma adecuada y obtener conclusiones válidas. Por ello, una vez realizado el análisis multi­variante, hay que evaluar la adecuación del modelo obtenido (bondad de ajuste), ya que, por ejemplo, una ecuación puede ser estadísticamente significa­tiva, pero predecir con poca fiabilidad el riesgo de enfermar de un sujeto. Debe prestarse atención a las medidas globales de bondad del modelo, así como comprobar si se cumplen las condiciones de aplicación de cada una de las técnicas.

También en las técnicas multivariantes, el resultado obtenido es una estimación puntual, por lo que de­berá calcularse el correspondiente IC para evaluar su relevancia clínica. Todos los comentarios realizados a propósito de la significación estadística y la relevan­cia clínica en las pruebas estadísticas bivariantes son aplicables a las multivariantes. La principal diferencia es que en el análisis multivariante se tienen en cuenta simultáneamente las relaciones entre múltiples varia­bles, de forma que una ecuación predictiva mejorará su capacidad de predicción al incorporar más de una variable o la estimación del efecto del factor de estudio estará ajustada, es decir, se habrá controlado el efecto simultáneo de diferentes factores de confusión.

En otras ocasiones no puede diferenciarse entre variables dependientes e independientes, sino que, de acuerdo con el objetivo del estudio, el análisis persigue finalidades diferentes, como la clasificación de variables o individuos aparentemente heterogéneos en grupos homogéneos, según un conjunto de datos (análisis de conglomerados o cluster analysis), o la identificación de los factores subyacentes en un con­junto de variables, es decir, la reducción de la dimen­sionalidad de los datos, combinando un conjunto am­plio de variables observadas en unas pocas variables ficticias (combinaciones lineales de las anteriores) que representen casi la misma información que los datos originales (análisis factorial y análisis de componentes principales). Estas técnicas se utilizan con frecuencia en la investigación sobre servicios sanitarios, pero poco en investigación clínica y epidemiológica.

Ejemplo 27.11. Supongamos que se desea desarro­llar un indicador del estado de salud aplicable a

263

Page 12: Capítulo 27 - Papel de la estadísticadsp.facmed.unam.mx/wp-content/uploads/2013/12/Anexo-1A...criptiva e inferencial. La estadística descriptiva permite organizar, presentar y sintetizar

Interpretación de resultadosParte | 4 |

diferentes regiones. Para ello, se recogen multitud de indicadores sanitarios, demográficos, sociales, etc., de estas regiones, y se aplica una técnica multi­variante para reducir todos estos indicadores a unas

264

pocas variables ficticias, con la extracción de factores, cada uno de los cuales representa una dimensión de la información contenida en la totalidad de los indicadores.

bibliografía

Altman DG, Bland JM. Parametric vs non­parametric methods for data analysis. BMJ. 2009;338:a3167.

Altman DG. Missing outcomes in randomized trials: addressing the dilemma. Open Med. 2009;3(2):e51­3.

Altman DG, Bland JM. Missing data. BMJ. 2007;334:424.

Altman DG, Royston P. The cost of dichotomising continuous variables. BMJ. 2006;332:1080.

Altman DG, Bland JM. Standard deviations and standard errors. BMJ. 2005;331:903.

Altman D, Bland JM. Confidence intervals illuminate absence of evidence. BMJ. 2004;328:1016­7.

Argimon JM. La ausencia de significación estadística en un ensayo clínico no significa equivalencia terapéutica. Med Clin (Barc). 2002;118:701­3.

Argimon JM. Intervalos de confianza: algo más que un valor de significación estadística. Med Clin (Barc). 2002;118:382­4.

Armitage P, Berry G, Matthews JNS. Statistical methods in medical research. 4.ª ed.. Oxford: Blackwell Science; 2002.

Bayarri MJ, Cobo E. Una oportunidad para Bayes. Med Clin (Barc). 2002;119:252­3.

Bland JM. The tyranny of power: is there a better way to calculate sample size? BMJ. 2009;339:b3985.

Bland JM, Altman DG. Analysis of continuous data from small samples. BMJ. 2009;338:a3166.

Bland JM, Altman DG. The logrank test. BMJ. 2004;328:1073.

Boutron I, Dutton S, Ravaud P, Altman DG. Reporting and interpretation of randomized controlled trials with statistically nonsignificant

results for primary outcomes. JAMA. 2010;303(20):2058­64.

Bland JM, Altman DG. Survival probabilities (the Kaplan­Meier method). BMJ. 1998;317:1572.

Bender R, Lange S. Adjusting for multiple testing­when and how? J Clin Epidemiol. 2001;54:343­9.

Bradburn MJ, Clark TG, Love SB, Altman DG. Survival Analysis Part II: Multivariate data analysis – an introduction to concepts and methods. Br J Cancer. 2003;89:431­6.

Clark TG, Bradburn MJ, Love SB, Altman DG. Survival Analysis. Part I. Basic concepts and first analysis. Br J Cancer. 2003;89:232­8.

Cobo E, Muñoz P, González JA, editors. Estadística para no estadísticos: bases para interpretar artículos científicos. 1ª ed. Barcelona: Elsevier; 2007.

Cobo E. Análisis multivariante en investigación biomédica: criterios para la inclusión de variables. Med Clin (Barc). 2002;119:230­7.

Cohen HW. P values: use and misuse in medical literature. Am J Hypertens. 2011;24:18­23.

Doll H, Carney S. Introduction to biostatistics: Part 3. Statistical approaches to uncertainty: P values and confidence intervals unpacked. ACP J Club. 2006;144:A8­9.

Katz MH. Multivariable analysis: a primer for readers of medical research. Ann Intern Med. 2003;138:644­50.

Moss M, Wellman DA, Cotsonis GA. An appraisal of multivariable logistic models in the pulmonary and critical care literature. Chest. 2003;123:923­8.

Nüesch E, Trelle S, Reichenbach S, Rutjes AW, Bürgi E, Scherer M,

et al. The effects of excluding patients from the analysis in randomised controlled trials: meta­epidemiological study. BMJ. 2009;339:b3244.

Perneger TV. What’s wrong with Bonferroni adjustments. BMJ. 1998;316:1236.

Pocock SJ, Ware JH. Translating statistical findings into plain English. Lancet. 2009;373:1926­8.

Pocock SJ, Travison TG, Wruck LM. How to interpret figures in reports of clinical trials. BMJ. 2008;336:1166­9.

Pocock SJ. The simplest statistical test: how to check for a difference between treatments. BMJ. 2006;332:1256­8.

Royston P, Altman DG. Visualizing and assessing discrimination in the logistic regression model. Stat Med. 2010;29(24):2508­20.

Stone GW, Pocock SJ. Randomized trials, statistics, and clinical inference. J Am Coll Cardiol. 2010;55:428­31.

Schulz KF, Grimes DA. Multiplicity in randomised trials II: subgroup and interim analyses. Lancet. 2005;365:1657­61.

Schulz KF, Grimes DA. Multiplicity in randomised trials I: endpoints and treatments. Lancet. 2005;365:1591­5.

Streiner DL, Norman GR. Correction for multiple testing: is there a resolution? Chest. 2011;140:16­8.

Vedula SS, Altman DG. Effect size estimation as an essential component of statistical analysis. Arch Surg. 2010;145:401­2.

White IR, Horton NJ, Carpenter J, Pocock SJ. Strategy for intention to treat analysis in randomised trials with missing outcome data. BMJ. 2011;342:d40.