Teoría clásica de la prueba: definición

Actualizado por ultima vez el 26 de diciembre de 2021, por Luis Benites.

¿Qué es la Teoría Clásica de Pruebas?

La Teoría Clásica de Pruebas (CTT, por sus siglas en inglés), a veces llamada el modelo de puntaje verdadero , es la matemática detrás de la creación y respuesta de pruebas y escalas de medición. El objetivo de CTT es mejorar las pruebas, particularmente la confiabilidad y validez de las pruebas.

La confiabilidad implica consistencia: si tomas el ACT cinco veces, deberías obtener aproximadamente los mismos resultados cada vez. Una prueba es válida si mide lo que se supone que debe medir.

Se llama «clásico» porque la Teoría de Respuesta al Ítem es un marco más moderno.

Puntuaciones verdaderas

La Teoría Clásica de Pruebas asume que cada persona tiene una puntuación verdadera innata . Se puede resumir con una ecuación:

X = T + E,

Donde:

  • X es una puntuación observada,
  • T es la puntuación verdadera,
  • E es un error aleatorio.

Por ejemplo, supongamos que conoce exactamente el 70% de todo el material cubierto en un curso de estadística. Esta es su puntuación real (T); Una prueba perfecta de fin de semestre (que no existe) idealmente debería reflejar este puntaje real. En realidad, es probable que obtenga una puntuación de alrededor del 65 % al 75 %. La discrepancia del 5% de su puntuación real es el error (E).

Se supone que los errores se distribuyen normalmente con una media de cero; Hipotéticamente, si tomó la prueba una cantidad infinita de veces, su puntaje observado debería ser igual a su puntaje real.

Estadísticas utilizadas en la teoría de prueba clásica

teoría clásica de la prueba

¿Tu prueba mide lo que se supone que debe medir?

La teoría clásica de las pruebas es una colección de muchas estadísticas, incluida la puntuación promedio , la dificultad de los elementos y la confiabilidad de la prueba .

1.Correlación

Correlación : muestra cómo dos variables X e Y se relacionan entre sí. Se utilizan diferentes medidas para diferentes tipos de pruebas. Por ejemplo, una prueba calificada de forma dicotómica (p. ej., respuestas sí/no) se correlacionaría con una correlación biserial puntual, mientras que una prueba calificada politómicamente (una con respuestas múltiples) se calificaría con el coeficiente de correlación de Pearson .

2. Covarianza

La covarianza es una medida de cuánto varían juntas dos variables aleatorias. Es similar a la varianza, pero donde la varianza te dice cómo varía una sola variable, la covarianza te dice cómo varían dos variables juntas.

3. Índice de Discriminación

Índice de discriminación : la capacidad de la prueba para discriminar entre diferentes niveles de aprendizaje u otro concepto de interés. Un alto índice de discriminación indica que la prueba es capaz de diferenciar entre niveles.

4. Dificultad del artículo

Dificultad del ítem: una medida de la dificultad de la pregunta de prueba individual. Es la proporción de examinados que respondieron correctamente sobre el número total de examinados. Por ejemplo, un puntaje de dificultad de ítem de 89/100 significa que de 100 personas, 89 respondieron correctamente.

5. Coeficiente de confiabilidad

Coeficiente de confiabilidad : una medida de qué tan bien la prueba mide el logro. Existen varios métodos para calcular el coeficiente que incluyen prueba-reprueba, forma paralela o alternativa y análisis interno. Reglas generales para los niveles preferidos del coeficiente:
Para pruebas de alto riesgo (por ejemplo, admisiones universitarias), > 0,85.
Para pruebas de bajo riesgo (por ejemplo, evaluación en el aula), > 0,70.

6. Varianza de muestra / Desviación estándar

La varianza de la muestra y la desviación estándar de la muestra son medidas de cuán dispersas están las puntuaciones.

7. Error estándar de medición

Error estándar de medición (SEm) : una medida de cuánto se distribuyen los puntajes medidos de las pruebas alrededor de un puntaje «verdadero».

Referencias :
Crocker, L. y Algina, J. (1986). Introducción a la
teoría de pruebas clásica y moderna. Orlando, FL: Holt, Rinehart y Winston
McDonald, RP (1999). Teoría de la prueba: un tratamiento unificado. Mahwah, Nueva Jersey: Lawrence Erlbaum Associates.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Cuál es la desviación absoluta mediana? La desviación absoluta mediana (MAD) es una medida robusta de cuán disperso está un…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!