Vol. 17 - Num. 67
Lectura crítica en pequeñas dosis
aServicio de Gastroenterología. Hospital Infantil Universitario La Paz. Madrid. España.
Correspondencia: M Molina. Correo electrónico: mma1961@gmail.com
Cómo citar este artículo: Molina Arias M. El metaanálisis de pruebas diagnósticas. Rev Pediatr Aten Primaria. 2015;17:281-5.
Publicado en Internet: 04-09-2015 - Número de visitas: 11181
Resumen
La metodología a seguir a la hora de realizar una revisión sistemática con metaanálisis sobre estudios de tratamiento está bastante estandarizada y es, en general, conocida por los consumidores de literatura médica. Por otra parte, cada vez más nos encontramos con una clase de metaanálisis diferente, el de pruebas diagnósticas. Aunque las recomendaciones generales para su realización son similares a los metaanálisis de tratamiento, tienen aspectos específicos que conviene conocer bien para poder interpretarlos adecuadamente. Entre estos, destacamos el estudio del efecto umbral, los métodos de selección de las medidas de resumen y la forma de presenta el resultado global en forma de curva ROC resumen.
Palabras clave
● MetaanálisisEl metaanálisis (MA) es el método de síntesis cuantitativa que se utiliza en las revisiones sistemáticas para integrar los resultados de los estudios primarios en una medida resumen de resultado. El MA comienza a utilizarse a partir de los años 1980 con el paso de realización de revisiones narrativas a revisiones sistemáticas.
Inicialmente los MA se centran en estudios sobre tratamiento, por lo que en la actualidad está bastante bien definida la metodología que hay que seguir para hacer una revisión sistemática y un MA sobre tratamiento de forma correcta.
Por otra parte, durante las últimas dos décadas hemos asistido a una revisión sobre el estudio de la validez de las pruebas diagnósticas, identificándose los marcadores que miden su desempeño como sensibilidad (S), especificidad (E), valores predictivos, cocientes de probabilidades, etc. Esto lleva aparejado el desarrollo del MA para evaluar la validez de las pruebas diagnósticas (MAD), que tiene muchas características comunes con el MA sobre pruebas de tratamiento, pero también algunas peculiaridades que es preciso conocer.
El proceso de revisión sistemática de diagnóstico sigue las mismas fases que las de una de tratamiento en cuanto al planteamiento de los objetivos de la revisión, la realización de una búsqueda bibliográfica completa, la selección de artículos, la evaluación de su calidad metodológica y el posterior análisis estadístico o MA propiamente dicho. Sin embargo, existen diferencias en las bases de datos que puede interesar utilizar, el tipo de descriptores a utilizar en la búsqueda, las listas de verificación útiles para valorar los trabajos primarios (QUADAS para revisiones sistemáticas de diagnóstico y STARD para los trabajos primarios de la revisión), etc.1-3.
No describiremos en este artículo todos los puntos de desarrollo de una revisión sistemática y MA sobre pruebas diagnósticas, sino que nos centraremos en tratar de explicar de forma sencilla los aspectos específicos del MAD para favorecer la lectura crítica y comprensión de estos trabajos que cada vez nos encontraremos con más frecuencia en la literatura médica. Explicaremos brevemente qué medidas de resumen pueden utilizarse para pasar a detallar algunos aspectos del estudio de heterogeneidad y de la presentación del resultado de un MAD.
Estamos acostumbrados a ver como en los MA sobre estudios de tratamiento se selecciona una medida de resultado resumen, ya sea un riesgo relativo, una diferencia de medias, etc. Sin embargo, en los estudios sobre pruebas diagnósticas se estima el resultado con una pareja que define la validez de la prueba.
Es frecuente combinar S y E como valores resumen ponderados, aunque no es la medida preferida por la mayor parte de los autores que desarrollan la metodología estadística del MAD. El problema con estos indicadores es que los puntos de corte para considerar la prueba como positiva o negativa han podido ser diferentes entre los distintos estudios primarios. Otra posible causa de variación se produce cuando la valoración de la prueba depende de la subjetividad del evaluador, como ocurre con las pruebas de imagen como las radiografías. Esto dar lugar a un sesgo característico de los MAD conocido como efecto umbral, que debe valorarse siempre que se empleen estos indicadores.
Otra pareja de indicadores que tampoco es aconsejable utilizar son los valores predictivos positivo y negativo. La razón es que estos índices varían con la prevalencia del efecto, y esta generalmente variará de un estudio a otro, por lo que introducen mucha heterogeneidad3.
Quizás la pareja más fiable para combinar en un resultado resumen sea la formada por los cocientes de probabilidades positivo y negativo, que, al igual que el valor resumen de S y E, pueden calcularse mediante un modelo de efecto fijo (prueba de Mantel-Haenszel) o de efectos aleatorios (método de DerSimonian-Laird), en cuya descripción no vamos a entrar.
La ventaja de los cocientes de probabilidades es doble. Por una parte, son mucho menos susceptibles al efecto umbral. Por otra, permiten calcular la odds posprueba (cociente de probabilidad × odds preprueba) y, a partir de ella, la probabilidad posprueba (odds/1 + odds).
Por último, nos referiremos a la odds ratio diagnóstica, que puede calcularse, entre otras formas, como la razón de los cocientes de probabilidades4. Es también una medida muy robusta frente al efecto umbral y resulta de gran utilidad a la hora de calcular la curva ROC resumen que comentaremos más adelante.
Puede sospecharse observando la heterogeneidad de la metodología de los estudios primarios de la revisión. La forma matemática más sencilla es calculando el coeficiente de correlación de Spearman entre S y E. Si existe efecto umbral existirá una correlación inversa, tanto más fuerte cuanto mayor sea el efecto5.
Una forma gráfica de observarlo consiste en representar los puntos S-E sobre el espacio de la curva ROC hipotética del estudio, tal como vemos en la Fig. 1. Este diagrama de dispersión nos da una idea también de la heterogeneidad de los estudios primarios, que será mayor cuánto más dispersos se encuentren los puntos3.
Si existe dispersión pero al unir los puntos podemos formar una línea semejante a la curva ROC, es probable que exista un efecto umbral, aunque leves diferencias pueden estar provocadas simplemente por azar. Otros sesgos (selección, verificación, etc.) suelen aumentar más la dispersión de los puntos. Así, esta representación gráfica nos sirve para sospechar la existencia de un efecto umbral y para determinar la posible heterogeneidad de los estudios.
Es la estimación de una curva ROC común ajustada según los resultados combinados de todos los estudios primarios de la revisión y constituye la forma más idónea de expresar el resultado final del MAD. Existen diversas formas de calcularla, que no vamos a detallar aquí, basados en métodos bivariantes, jerárquicos, etc.5,6. En general, la curva ROCr se construye con un modelo de regresión empleando la odds ratio diagnóstica como estimador por su robustez frente a la heterogeneidad y al posible efecto umbral.
La lectura de la curva ROCr es similar a la de cualquier curva de valoración de una prueba diagnóstica individual. Los dos parámetros más empleados para su descripción son el área bajo la curva (ABC) y el índice Q (que no debe confundirse con la Q de Cochrane para valorar la heterogeneidad de los estudios primarios)7.
El ABC de la curva perfecta se aproximará a uno. Valores entre 0,5 y uno indican la capacidad discriminatoria de la prueba diagnóstica, que será mayor cuanto más próximo a uno. Un valor de ABC de 0,5 nos dice que la capacidad de la prueba es similar a la de lanzar una moneda al aire. Valores inferiores a 0,5 indican que la prueba no contribuye al diagnóstico que pretende detectar.
El punto o índice Q corresponde a aquel en el que S y E se igualan. Al igual que con el ABC, su valor numérico entre 0,5 y uno indicará la eficacia global de la prueba diagnóstica, que será mayor cuanto más próximo al uno esté.
Tanto el ABC como el índice Q pueden calcularse con sus intervalos de confianza del 95%. En estos casos, siempre que el límite inferior del intervalo sea inferior a 0,5 concluiremos que la prueba no desempeña ningún papel en el diagnóstico de la enfermedad.
Para terminar con el tema, vamos a ver cómo se aplica lo que hemos comentado hasta ahora fijándonos en dos trabajos reales de la literatura médica.
El primero es una revisión sistemática con MAD para valorar la precisión de la ecografía pulmonar para el diagnóstico de neumonía en el niño, utilizando la radiografía de tórax como patrón de referencia8. Los resultados globales obtenidos son una S de 96% y una E de 93%, así como unos cocientes de probabilidades positivo de 15,3 y negativo de 0,06.
Vemos que los autores seleccionan S y E, cuyo valor ponderado resumen calculan utilizando un modelo de efectos fijos (a pesar de la heterogeneidad existente, como comentaremos más adelante), mientras que emplean uno de efecto aleatorio para calcular los cocientes de probabilidades. La heterogeneidad se estudió mediante los habituales índices Q e I2, y resultó moderada (>45%) en todos los casos. Si reflexionamos, la prueba de referencia (radiografía) depende de la subjetividad del observador, por lo que está sujeto a riesgo de existencia de efecto umbral, que los autores no valoran en absoluto, ni mediante la correlación de Spearman ni mediante la representación de los puntos de los valores resumen en el espacio ROC. Quizás este dato, junto con otros datos de heterogeneidad no estadística en el emplazamiento de los estudios, edades de los pacientes, experiencia de los ecografistas, etc., podría desaconsejar la realización de un MA para calcular una medida resumen.
A pesar de todo, los autores lo llevan a cabo y calculan la curva ROCr, obteniendo un ABC del 98%, lo que les permite concluir el alto rendimiento de la prueba aunque, como hemos dicho, los resultados del MA pueden ponerse en duda por la alta heterogeneidad de los estudios primarios.
El segundo es un MAD para valorar la utilidad de los péptidos natriuréticos (BNP y NT-proBNP) para el diagnóstico del ductus arterioso persistente hemodinámicamente significativo en prematuros, utilizando la ecocardiografía como patrón de referencia9. Se seleccionan un total de diez trabajos con BNP y 11 con NT-proBNP y se construyen las tablas de contingencia de todos ellos para el cálculo de S y E, obteniéndose unos valores resumen del 88% y 95% para BNP y del 90% y 84% para NT-proBNP.
En este caso los autores detectan heterogeneidad importante en la realización del estándar de referencia, así como entre las características de los pacientes de los diferentes estudios. Esta heterogeneidad se pone de manifiesto por la gran dispersión de los valores individuales en los forest plot y por la dispersión de las parejas de S y E en el espacio ROC.
A pesar de que llegan a realizar el MA completo, incluyendo la realización de la curva ROCr, los autores concluyen, a diferencia del estudio anterior, que no es seguro obtener una medida resumen a partir de los datos de los estudios primarios de la revisión, por lo que recomiendan realizar estudios que valoren de manera local la prueba diagnóstica en grupos más homogéneos.
Hemos vistos, pues, que el MAD tiene algunas peculiaridades en su realización diferentes al MA de pruebas de tratamiento, que tenemos que tener en cuenta a la hora de hacer lectura crítica de uno de estos trabajos. Además de las directrices generales para realizar cualquier revisión sistemática con MA, debemos pedir a los autores que estudien la posible existencia de efecto umbral como causa importante de heterogeneidad, preferir la utilización de los cocientes de probabilidad frente a la pareja S-E y, por último, buscar como resultado resumen principal el que proporciona la curva ROCr del estudio.
Los autores declaran no presentar conflictos de intereses en relación con la preparación y publicación de este artículo.
ABREVIATURAS: ABC: área bajo curva • E: especificidad • MA: metaanálisis • MAD: metaanálisis de pruebas diagnósticas • ROCr: curva ROC resumen • S: sensibilidad.
Comentarios
Este artículo aún no tiene comentarios.