Cómo crear una matriz de covarianza en R

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

La covarianza es una medida de cómo los cambios en una variable se asocian con los cambios en una segunda variable. Específicamente, es una medida del grado en que dos variables están asociadas linealmente.

Una matriz de covarianza es una matriz cuadrada que muestra la covarianza entre muchas variables diferentes. Esta puede ser una forma útil de comprender cómo se relacionan las diferentes variables en un conjunto de datos.

El siguiente ejemplo muestra cómo crear una matriz de covarianza en R.

Cómo crear una matriz de covarianza en R

Utilice los siguientes pasos para crear una matriz de covarianza en R.

Paso 1: crea el marco de datos.

Primero, crearemos un marco de datos que contiene los puntajes de las pruebas de 10 estudiantes diferentes para tres materias: matemáticas, ciencias e historia.

#create marco de datos
datos <- data.frame (math = c (84, 82, 81, 89, 73, 94, 92, 70, 88, 95),
                   ciencia = c (85, 82, 72, 77, 75, 89, 95, 84, 77, 94),
                   historia = c (97, 94, 93, 95, 88, 82, 78, 84, 69, 78))

#ver datos del marco de
 datos

   historia de la ciencia de las matemáticas
1 84 85 97
2 82 82 94
3 81 72 93
4 89 77 95
5 73 75 88
6 94 89 82
7 92 95 78
8 70 84 84
9 88 77 69
10 95 94 78

Paso 2: crea la matriz de covarianza.

A continuación, crearemos la matriz de covarianza para este conjunto de datos usando la función cov () :

#create matriz de covarianza
cov (datos)

             historia de la ciencia de las matemáticas
matemáticas 72.17778 36.88889 -27.15556
ciencia 36.88889 62.66667 -26.77778
historia -27.15556 -26.77778 83.95556

Paso 3: interpretar la matriz de covarianza.

Los valores a lo largo de las diagonales de la matriz son simplemente las variaciones de cada sujeto. Por ejemplo:

  • La varianza de los puntajes de matemáticas es 72.18
  • La varianza de los puntajes de ciencias es 62.67
  • La varianza de los puntajes históricos es 83,96

Los otros valores de la matriz representan las covarianzas entre los distintos sujetos. Por ejemplo:

  • La covarianza entre las puntuaciones de matemáticas y ciencias es 36,89
  • La covarianza entre las puntuaciones de matemáticas e historia es -27,16
  • La covarianza entre las puntuaciones de ciencia e historia es -26,78

Un número positivo de covarianza indica que dos variables tienden a aumentar o disminuir en conjunto. Por ejemplo, las matemáticas y las ciencias tienen una covarianza positiva (36,89), lo que indica que los estudiantes que obtienen un puntaje alto en matemáticas también tienden a obtener un puntaje alto en ciencias. Por el contrario, los estudiantes que obtienen un puntaje bajo en matemáticas también tienden a obtener un puntaje bajo en ciencias.

Un número negativo de covarianza indica que a medida que aumenta una variable, una segunda variable tiende a disminuir. Por ejemplo, las matemáticas y la historia tienen una covarianza negativa (-27,16), lo que indica que los estudiantes que obtienen una puntuación alta en matemáticas tienden a obtener una puntuación baja en la historia. Por el contrario, los estudiantes que obtienen un puntaje bajo en matemáticas tienden a obtener un puntaje alto en historia.

Puede encontrar más tutoriales de R aquí .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Los errores estándar agrupados se utilizan en modelos de regresión cuando algunas observaciones de un conjunto de datos están naturalmente…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!