¿Qué es la confiabilidad entre evaluadores? (Definición y ejemplo)

Contenido de este artículo

0.1 Cómo interpretar la confiabilidad entre evaluadores
0.2 Recursos adicionales

1 Redactor del artículo
2 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

En estadística, la confiabilidad entre evaluadores es una forma de medir el nivel de acuerdo entre múltiples evaluadores o jueces.

Se utiliza como una forma de evaluar la confiabilidad de las respuestas producidas por diferentes ítems en una prueba. Si una prueba tiene menor confiabilidad entre evaluadores, esto podría ser una indicación de que los elementos de la prueba son confusos, poco claros o incluso innecesarios.

Hay dos formas comunes de medir la confiabilidad entre evaluadores:

1. Acuerdo porcentual

La forma sencilla de medir la confiabilidad entre evaluadores es calcular el porcentaje de elementos en los que los jueces están de acuerdo.

Esto se conoce como porcentaje de acuerdo , que siempre varía entre 0 y 1, donde 0 indica que no hay acuerdo entre los evaluadores y 1 indica un acuerdo perfecto entre los evaluadores.

Por ejemplo, supongamos que se les pide a dos jueces que califiquen la dificultad de 10 ítems en una prueba en una escala del 1 al 3. Los resultados se muestran a continuación:

Para cada pregunta, podemos escribir «1» si los dos jueces están de acuerdo y «0» si no están de acuerdo.

El porcentaje de preguntas en las que los jueces estuvieron de acuerdo fue 7/10 = 70% .

2. Kappa de Cohen

La forma más difícil (y más rigurosa) de medir la confiabilidad entre evaluadores es utilizar el método Kappa de Cohen , que calcula el porcentaje de elementos en los que los evaluadores están de acuerdo, teniendo en cuenta el hecho de que los evaluadores pueden coincidir en algunos elementos puramente. por casualidad.

La fórmula para el kappa de Cohen se calcula como:

k = (p _o – p _e ) / (1 – p _e )

dónde:

p _o : acuerdo relativo observado entre los evaluadores
p _e : probabilidad hipotética de acuerdo al azar

El Kappa de Cohen siempre varía entre 0 y 1, donde 0 indica que no hay acuerdo entre los evaluadores y 1 indica un acuerdo perfecto entre los evaluadores.

Para ver un ejemplo paso a paso de cómo calcular el Kappa de Cohen, consulte este tutorial .

Cómo interpretar la confiabilidad entre evaluadores

Cuanto mayor sea la confiabilidad entre evaluadores, más consistentemente varios jueces califican elementos o preguntas en una prueba con puntajes similares.

En general, se requiere un acuerdo entre evaluadores de al menos el 75% en la mayoría de los campos para que una prueba se considere confiable. Sin embargo, es posible que se necesiten mayores confiabilidades entre evaluadores en campos específicos.

Por ejemplo, una confiabilidad entre evaluadores del 75% puede ser aceptable para una prueba que busca determinar qué tan bien se recibirá un programa de televisión.

Por otro lado, puede requerirse una confiabilidad entre evaluadores del 95% en entornos médicos en los que varios médicos están juzgando si un determinado tratamiento debe usarse o no en un paciente determinado.

Tenga en cuenta que en la mayoría de los entornos académicos y campos de investigación rigurosos, Kappa de Cohen se utiliza para calcular la confiabilidad entre evaluadores.

Recursos adicionales

Una rápida introducción al análisis de confiabilidad
¿Qué es la confiabilidad dividida en mitades?
¿Qué es la fiabilidad Test-Retest?
¿Qué es la confiabilidad de los formularios paralelos?
¿Qué es un error estándar de medición?
Calculadora Kappa de Cohen

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Equipo de Statologos

Luis Benites

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Director de Statologos.com
Dereck Amesquita

I am a Bachelor of Science in Economics gratuaded from the National University of San Agustin. I have experience in Python, R and other languages, I also have knowledge of statistics and econometrics. If you need help on some issues you can write to me.
Statistics content writer
Cisco Pfoccori

15 años haciendo SEO, monetizando, haciendo nichos y ayudando a empresas a mejoras sus estrategia digital. Pueden contactarme si necesitan mejorar su digitalización, actualmente trabajo para CirculoSEO.
Editor de contenido y SEO

Cómo interpretar la confiabilidad entre evaluadores

Recursos adicionales

Redactor del artículo

¿Te hemos ayudado?

Artículos relacionados:

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!