CORRELACION
Y COVARIANZA
El
concepto de relación en estadística coincide con lo que se entiende por
relación en el lenguaje habitual: dos variables están relacionadas si varían
conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en
dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una
muestra de niños de 5 a 12 años: los mayores en edad son también los más altos
y pesan más, y los más jóvenes son los que pesan menos y son más bajos de
estatura; decimos que peso y altura son dos variables que están relacionadas
porque los más altos pesan más y los más bajos pesan menos.
Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa; por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física). La correlación se define por lo tanto por la co-variación (co = con, juntamente: variar a la vez).
Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza es también una medida de relación, lo mismo que el coeficiente de correlación. Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender simultáneamente qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.
Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa; por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física). La correlación se define por lo tanto por la co-variación (co = con, juntamente: variar a la vez).
Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza es también una medida de relación, lo mismo que el coeficiente de correlación. Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender simultáneamente qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.
COVARIANZA EN EXCEL
COVARIANZA.M (función COVARIANZA.M)
Devuelve la covarianza de la muestra, o
promedio de los productos de las desviaciones para cada pareja de puntos
de datos en dos conjuntos de datos.
Sintaxis
COVARIANZA.M(matriz1;matriz2)La sintaxis de la función COVARIANZA.M tiene los siguientes argumentos:
- Matriz1 Obligatorio. El primer rango de celdas de números enteros.
- Matriz2 Obligatorio. El segundo rango de celdas de números enteros.
Observaciones
- Los argumentos deben ser números o nombres, matrices o referencias que contengan números.
- Si un argumento de matriz o referencia contiene texto, valores lógicos o celdas vacías, esos valores se pasan por alto; sin embargo, se incluyen las celdas que tengan el valor cero.
- Si los argumentos matriz1 y matriz2 tienen números distintos de puntos de datos, COVARIANZA.M devuelve el valor de error #N/A.
- Si cualquiera de los argumentos matriz1 o matriz2 está vacío o si contienen solamente un punto de datos cada uno, COVARIANZA.M devuelve el valor de error #¡DIV/0!.
COVARIANCE.P (función COVARIANCE.P)
Devuelve la covarianza de la población, el
promedio de los productos de las desviaciones para cada pareja de puntos
de datos en dos conjuntos de datos.
Utilice la covarianza para determinar las relaciones entre dos
conjuntos de datos. Por ejemplo, puede investigar si unos ingresos más
elevados se corresponden con niveles de estudios más altos.Sintaxis
COVARIANCE.P(matriz1;matriz2)La sintaxis de la función COVARIANCE.P tiene los siguientes argumentos:
- Matriz1 Obligatorio. El primer rango de celdas de números enteros.
- Matriz2 Obligatorio. El segundo rango de celdas de números enteros.
Observaciones
- Los argumentos deben ser números o nombres, matrices o referencias que contengan números.
- Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
- Si los argumentos matriz1 y matriz2 tienen números distintos de puntos de datos, COVARIANCE.P devuelve el valor de error #N/A.
- Si los argumentos matriz1 o matriz2 están vacíos, COVARIANCE.P devuelve el valor de error #¡DIV/0!.
- La covarianza es:
donde x e y son las medias de muestra PROMEDIO(matriz1) y PROMEDIO(matriz2) y n es el tamaño de la muestra.
DIFERENCIA
ENTRE CORRELACION, COVARIANZA Y VARIANZA:
- La correlación indica la fuerza y dirección de la asociación entre dos variables aleatorias en forma de relación lineal. Dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían con respecto a los valores de la otra
- La covarianza es una medida de la variación común a dos variables y, por tanto, una medida del grado y tipo de su relación.
- El análisis de varianza sirve para comparar si los valores de un grupos de datos son diferentes significativamente a los valores de otro u otros grupos de datos.
COVARIANZA (Definicion):
Una medida
del grado en que dos variables aleatorias se mueven en la misma direccion o en
direcciones opuestas la una respecto a la otra. En otras palabras, si dos
variables aleatorias generalmente se mueven en la misma direccion se dirá que
tienen una covarianza positiva. Si tienden a moverse en direcciones opuestas,
se dirá que tienen una covarianza negativa. La covarianza se mide como el valor
que se espera de los productos de las desviaciones de dos variables aleatorias
respecto a sus correspondientes medias. Una varianza es un caso especial de
covarianza.
FORMULAS:
La formula
suele aparecer expresada como:
La expresión se resuelve promediando el producto
de las puntuaciones diferenciales por su tamaño muestral (n pares de
puntuaciones, n-1 en su forma insesgada).
Dadas dos
variables estadísticas x e y definiremos la covarianza Sxy como:
en el caso de disponer de la
distribución agregada por frecuencias en una tabla de correlación.
en el caso de disponer de la
distribución sin agregar por frecuencias (en un listado matricial de datos
donde cada registro es una observación y nº de registros= N)
INTERPRETACION
DE LA COVARIANZA:
- Si Qxy > 0 hay dependencia directa (positiva), es decir a grandes valores de X corresponden grandes valores de Y.
- Si Qxy = 0 Una covarianza (0) se interpreta como la no existencia de una relacion lineal entre las dos variables estudiadas.
- Si Qxy < 0 hay dependenciainversa o negativa es decir, a grandes valores de X corresponden pequeños valores de Y
PROPIEDADES:
- La covarianza es el momento central de orden 1,1 de la distribución bidimensional.
- Es invariante ante los cambios de origen en cualquiera de las dos variables.
- Sin embargo depende de los cambios de unidad .Si se cambia de unidad de medida en ambas variables la covarianza se modifica proporcionalmente a ambos cambios:
u= a+bx v = c + dy Suv
= b.d.Sxy
- La expresión de cálculo de la covarianza es
donde a11 es el
llamado momento ordinario mixto y su expresión es:
si las observaciones
están agregadas por frecuencias , o bien:
- Si dos variables son independientes su covarianza es cero (el resultado recíproco no es necesariamente cierto).
- La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos.En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos.Si la covarianza es cero no hay una covariación clara en ninguno de los dos sentidos.Sin embargo el hecho de que la covarianza dependa de las medidas de las variables no permite establecer comparaciones entre unos casos y otros.
EJEMPLOS:
1.- Cinco niños de 2, 3, 5, 7 y 8 años de edad
pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
Hallar la covarianza.
xi
|
yi
|
xi
·yi
|
xi2
|
yi2
|
2
|
14
|
4
|
196
|
28
|
3
|
20
|
9
|
400
|
60
|
5
|
32
|
25
|
1 024
|
160
|
7
|
42
|
49
|
1 764
|
294
|
8
|
44
|
64
|
1 936
|
352
|
25
|
152
|
151
|
5 320
|
894
|
- X= 25/5=5
- Y=152/5=30.4
- Qx2=151/5-52
- Qy2=5320/2-30.42=139.84
- Qxy=894/6-5*30*4=26.8
2.- Se ha solicitado a un grupo de 50 individuos
información sobre el número de horas que dedican diariamente a dormir y ver la
televisión. La clasificación de las respuestas ha permitido elaborar la siente
tabla:
Nº de horas dormidas (X)
|
6
|
7
|
8
|
9
|
10
|
Nº de horas de televisión (Y)
|
4
|
3
|
3
|
2
|
1
|
Frecuencias absolutas (fi)
|
3
|
16
|
20
|
10
|
1
|
Calcular la covarianza
xi
|
yi
|
fi
|
xi
· fi
|
xi2
· fi
|
yi
· fi
|
yi2
· fi
|
xi
· yi · fi
|
6
|
4
|
3
|
18
|
108
|
12
|
48
|
72
|
7
|
3
|
16
|
112
|
784
|
48
|
144
|
336
|
8
|
3
|
20
|
160
|
1280
|
60
|
180
|
480
|
9
|
2
|
10
|
90
|
810
|
20
|
40
|
180
|
10
|
1
|
1
|
10
|
100
|
1
|
1
|
10
|
50
|
390
|
3082
|
141
|
413
|
1078
|
- X=390/4=7.8
- Y=141/50=2.82
- Qx2=3082/50-7.82=0.8
- Qy2=413/50-2.822=0.3076
- Qx=√0.8=0.89
- Qy=√0.3076=0.55
- Qxy=1078/50-7*8*2*82=-0.436
3.-
Calcula la covarianza de las variables estadísticas X, Y dadas por la tabla de
valores:
|
Debemos
calcular las medias de X y de Y, y calcular los productos Xi·Yi.
Los resultados que se obtienen son:
Enlaces
http://www.upcomillas.es/personal/peter/estadisticabasica/correlacion.pdf
http://es.wikipedia.org/wiki/coeficiente_de_correlacion
htttp://vadenumeros.es/sociales
http://www.uv.es/ceaces/base/descriptiva/covarianza.htm
http://www.economia48.com/spa/d/covarianza/covarianza.htm
biennn! me sirvio! gracias!
ResponderEliminarGracias es muy bueno (aunque hay que corregir unos cuantos errores en las tablas) ;)
ResponderEliminarTodo bien. El ejemplo es muy didàctico: muy entendible. Los felicito.
ResponderEliminarHay errores en la posiciòn de los indicadores del càlculo; no en los càlculos.
Pregunto: ¿ por què el càlculo de ; x cuadrado por las frecuencias y y cuadrado por las frecuencias . Para efectos de lo pedido , creo q no hizo falta
Calculo la covarianza de dos formas: por su formula y por anlisis de datos y los resultados son diferentes, Parto de datos obtenidos de una función aleatoria. ¿Estoy cometiendo algún error? Gracias porl la ayuda.
ResponderEliminarBuen post
ResponderEliminarMuy buena
ResponderEliminarpost de mierda joder. No me ayudó una chingada madre hdtpm
ResponderEliminarNa weón, era una broma xdxdxdxd. Muy buen post. Aquí estudiando a las doce menos cinco para global de mates de 6 temas y empiezo ahora xdxdxdx. Voy a suspender. Deséenme suerte hijosdeputas jajaja
ResponderEliminarCasino - Mapyro
ResponderEliminarCasino - A 3-minute walk from 경주 출장마사지 Grand 전라남도 출장안마 Casino and 고양 출장안마 Fremont Street Experience, This casino has an 8 table gaming 하남 출장샵 experience and it 대전광역 출장안마 is on Fremont Street, Fremont Street and Fremont