¿Qué es la confiabilidad entre evaluadores? (Definición y ejemplo)

En estadística, la confiabilidad entre evaluadores es una forma de medir el nivel de acuerdo entre múltiples evaluadores o jueces.

Se utiliza como una forma de evaluar la confiabilidad de las respuestas producidas por diferentes ítems en una prueba. Si una prueba tiene menor confiabilidad entre evaluadores, esto podría ser una indicación de que los elementos de la prueba son confusos, poco claros o incluso innecesarios.

Hay dos formas comunes de medir la confiabilidad entre evaluadores:

1. Acuerdo porcentual

La forma sencilla de medir la confiabilidad entre evaluadores es calcular el porcentaje de elementos en los que los jueces están de acuerdo.

Esto se conoce como porcentaje de acuerdo , que siempre varía entre 0 y 1, donde 0 indica que no hay acuerdo entre los evaluadores y 1 indica un acuerdo perfecto entre los evaluadores.

Por ejemplo, supongamos que se les pide a dos jueces que califiquen la dificultad de 10 ítems en una prueba en una escala del 1 al 3. Los resultados se muestran a continuación:

Para cada pregunta, podemos escribir «1» si los dos jueces están de acuerdo y «0» si no están de acuerdo.

El porcentaje de preguntas en las que los jueces estuvieron de acuerdo fue 7/10 = 70% .

2. Kappa de Cohen

La forma más difícil (y más rigurosa) de medir la confiabilidad entre evaluadores es utilizar el método Kappa de Cohen , que calcula el porcentaje de elementos en los que los evaluadores están de acuerdo, teniendo en cuenta el hecho de que los evaluadores pueden coincidir en algunos elementos puramente. por casualidad.

La fórmula para el kappa de Cohen se calcula como:

k = (p o – p e ) / (1 – p e )

dónde:

  • p o : acuerdo relativo observado entre los evaluadores
  • p e : probabilidad hipotética de acuerdo al azar

El Kappa de Cohen siempre varía entre 0 y 1, donde 0 indica que no hay acuerdo entre los evaluadores y 1 indica un acuerdo perfecto entre los evaluadores.

Para ver un ejemplo paso a paso de cómo calcular el Kappa de Cohen, consulte este tutorial .

Cómo interpretar la confiabilidad entre evaluadores

Cuanto mayor sea la confiabilidad entre evaluadores, más consistentemente varios jueces califican elementos o preguntas en una prueba con puntajes similares.

En general, se requiere un acuerdo entre evaluadores de al menos el 75% en la mayoría de los campos para que una prueba se considere confiable. Sin embargo, es posible que se necesiten mayores confiabilidades entre evaluadores en campos específicos.

Por ejemplo, una confiabilidad entre evaluadores del 75% puede ser aceptable para una prueba que busca determinar qué tan bien se recibirá un programa de televisión.

Por otro lado, puede requerirse una confiabilidad entre evaluadores del 95% en entornos médicos en los que varios médicos están juzgando si un determinado tratamiento debe usarse o no en un paciente determinado.

Tenga en cuenta que en la mayoría de los entornos académicos y campos de investigación rigurosos, Kappa de Cohen se utiliza para calcular la confiabilidad entre evaluadores.

Recursos adicionales

Una rápida introducción al análisis de confiabilidad
¿Qué es la confiabilidad dividida en mitades?
¿Qué es la fiabilidad Test-Retest?
¿Qué es la confiabilidad de los formularios paralelos?
¿Qué es un error estándar de medición?
Calculadora Kappa de Cohen

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Supongamos que tenemos el siguiente conjunto de datos que muestra los pies cuadrados y el precio de 12 casas diferentes:…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!