Correlación estadística

Warning: strpos() expects parameter 1 to be string, array given in /home/site/wwwroot/wp-content/themes/twentynineteen-child/functions.php on line 163

En este tema se aborda el concepto de distribución bidimensional para estudiar la correlación estadística entre dos variables. Las variables bidimensionales se tratarán como un vector de variables unidimensionales, de forma que se pueda trabajar tanto con la distribución conjunta del vector, como con las distribuciones marginales de cada una de las variables unidimensionales.

Distribución bidimensional

Es importante recordar, primeramente, algunos conceptos que ya se han visto anteriormente y que es necesario tener claros para poder avanzar en el temario.

Variable: define, de forma genérica, el fenómeno que se quiere estudiar. Por ejemplo:
- Causas de retrasos en un aeropuerto determinado.
- Tiempo invertido en hacer un recorrido concreto.
- Nacionalidad de los pasajeros de un trayecto concreto.
Población: conjunto total de elementos (individuos) objeto de estudio.
Muestra: subconjunto de la población, elegida para realizar el estudio.
Variable unidimensional: el resultado del experimento se materializa en una única observación. Por ejemplo:
- X = longitud de las tuercas producidas por una máquina en 1 día: {x1, x2,…, xr}.
- Y = peso de las tuercas producidas por una máquina en 1 día: {y1, y2,…, ys}.
Variable bidimensional: el resultado del experimento se materializa en dos observaciones. Por ejemplo:
- X, Y) = longitud y peso de las tuercas producidas por una máquina en 1 día. {(x1, y1), (x2, y2), …,(xn, yn)}
- (X, Y) = gastos e ingresos anuales de una familia. {(x1, y1), (x2, y2), …,(xn, yn)}
- X, Y) = No de controladores operando X, Y) = {(Número de controles operando@ Número de aproximaciones controladas en 1 h {(x1, y1), (x2, y2),…, (xn, yn)}

Hay que dejar claro que, cuando se estudia una variable bidimensional, la muestra consta de pares de datos (xk, yk). Es decir, el dato yk está ligado al correspondiente xk y viceversa. En un experimento bidimensional, por ejemplo, se estudia, para cada familia k, sus gastos xk e ingresos yk y se obtiene el par (xk, yk). En cambio, en dos experimentos unidimensionales, se elige un conjunto de n familias y para cada una de ellas se estudia sus gastos xk y.

Distribución conjunta

La representación de la distribución de una variable bidimensional se materializa en forma de tabla de dos entradas, una para la variable X y otra para la variable Y. Además de la frecuencia absoluta, es posible definir la frecuencia relativa, fij, de cada observación (xi, yj). La distribución conjunta define el comportamiento conjunto de la variable bidimensional (X, Y). Es decir, es la que contiene toda la información referente al comportamiento conjunto de las variables X y Y.

Distribución marginal

Como ya se ha mencionado anteriormente, cada una de las variables X yY son variables unidimensionales con identidad propia y distribución de frecuencias propia. Esta distribución unidimensional se llama distribución marginal. La distribución marginal de la variable X representa la tabla de frecuencias de X sin tener en cuenta la variable Y. Es decir, ni· cuenta el número de veces que se ha observado el dato Y (ni· es la suma de los elementos de la fila i). De la misma forma, nj· cuenta el número de veces que se ha observado el dato Yj, independientemente de la variable X (nj· es la suma de los elementos de la columna j).

Distribución condicionada

Además de las distribuciones marginales, es posible definir las distribuciones condicionas. La idea consiste en conocer, por ejemplo, cómo se distribuye la variable X para un valor fijo de la variable Y. Así, se pueden definir las siguientes variables unidimensionales:

X | y = yj Distribución de X, condicionado al valor yj de la variable Y. Define el comportamiento de la variable X cuando se mantiene fijo un valor de la variable Y.
Y | x = xi Distribución de Y condicionado al valor xi de la variable X. Define el comportamiento de la variable Y cuando se mantiene fijo un valor de la variable X. Como se puede comprobar con la definición, las frecuencias de la distribución de X | y = yj vienen dadas por la columna yj. De la misma forma, las frecuencias de la distribución de Y | x = xi vienen dadas por la fila xi.

Independencia de variables

La independencia de dos variables está relacionada con la independencia del experimento que representan. Por ejemplo, si se definen las variables: X = puntuación al lanzar un dado blanco. Y = puntuación al lanzar un dado azul. Si luego de definir estas variables, se realiza el experimento (X, Y) n veces (es decir, se hacen n lanzamientos de ambos dados a la vez), se obtiene una muestra {(x1, y1), (x2, y2),…, (xn, yn)}, en la que cada observación (xi, yi) es una realización del experimento.

Claramente las variables X y Y son independientes, en el sentido de que el resultado xi (puntuación del dado blanco) no depende del valor yi (puntuación del dado azul). Este mismo concepto se puede extender a cualquier variable bidimensional. Para estudiar la independencia de variables, se trabajará con las frecuencias relativas, f i j = n i j / n, en lugar de con las frecuencias absolutas n i j.

Momentos de una distribución bidimensional

Al igual que en una distribución unidimensional, los momentos de una distribución bidimensional son unos valores que la caracterizan, de forma que:

Dos distribuciones son iguales si todos sus momentos son iguales.
Dos distribuciones son, tanto más parecidas, cuanto mayor sea el número de momentos iguales que tienen.

Al contrario de lo que ocurre con la varianza, que siempre es positiva; la covarianza puede ser positiva, negativa o nula. El signo de la covarianza da una idea de cómo es la relación lineal entre las variables X y Y. Es decir, si entre ambas variables hubiera una relación lineal (del tipo y = a + bx), el signo de la covarianza diría si la relación es positiva (a medida que crece x también crece y) o negativa (a medida que crece x decrece y). En cualquier caso, si las variables X y Y son independientes, entonces su covarianza es nula. Sin embargo, lo contrario no tiene por qué ser cierto. Es decir, que la covarianza sea nula no implica que las variables sean independientes.

Correlación lineal entre variables

En estadística es habitual intentar predecir el comportamiento de una variable Y, a partir del conocimiento del valor de otra variable X. Así, si la variable Y depende funcionalmente de X, entonces existe una función f, tal que Y = f (X). En el caso más sencillo, la función f es una recta y = b0 + b1x llamada recta de regresión y se dice que hay una relación lineal entre las variables.

El coeficiente de correlación lineal es un parámetro que permite cuantificar la magnitud de la relación lineal entre dos variables X y Y. Cuando se trabaja con una variable bidimensional (X, Y), es posible representar los datos de la muestra {(x1, y1), (x2, y2),…, (xn, yn)} en un gráfico de dispersión.

En el propio gráfico se puede observar que hay cierta relación lineal entre las variables X y Y. Ya se ha visto que la covarianza avisa sobre el signo de la relación. El coeficiente de correlación lineal especifica si el grado de asociación es fuerte (es decir, los datos de la muestra está muy próximos a una hipotética recta y = a + bx) o, por el contrario, la relación es débil (es decir, aunque los datos muestran una tendencia lineal, no se encuentran próximos a una hipotética recta y = a + bx).

Análisis de datos en la actualidad

Las bases de datos han llegado a convertirse, casi, en una moneda en el mundo actual. Esto ha permitido que la información personal sea usada con diferentes fines, algunos de ellos, incluso, han rayado en la ilegalidad. Debido a esto, es de vital importancia que los encargados de las mismas cuenten con, además de habilidades, el conocimiento de sus alcances y limitaciones.

TECH Universidad Tecnológica se ha posicionado actualmente como la mayor universidad virtual del mundo. Esto es gracias a su gran portafolio educativo, donde se han atendido las necesidades de gran parte de los profesionales a través de más de 20 países. Dentro de su Facultad de Informática se pueden encontrar especializaciones tales como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Por otra parte, para aquellos profesionales que buscan complementar sus conocimientos en el campo del análisis de datos, no cabe duda que su elección debería inclinarse por el Máster en Visual Analytics & Big Data.