Variables categóricas: son aquellas variables sobre las que unicamente es posible obtener una medida de tipo nominal (u ordinal, pero con pocos valores) como sexo, raza, clase social.
Cuando se trabaja con variables categóricas, los datos suelen organizarse en tablas de doble entrada en las que cada entrada representa un criterio de clasificación (una variable categórica). Como resultado de esta clasificación, las frecuencias (el número o porcentaje de casos) aparece organizadas en casillas que contienen información sobre la relación existente entre ambos criterios. A estas tablas de frecuencia se les llama tablas de contingencia.
La tabla 12.1 muestra un ejemplo de tabla de contingencia. En ella, 474 sujetos que han sido ordenados con arreglo a dos criterios de clasificación: sexo y salario (se trata po tanto de una tabla bidimensional). Los números que aparecen en la tabla no son puntuaciones, sino frecuencias absolutas (número de casos): 19 varones tienen salarios de menos de 25.000 $; 86 mujeres tienen salarios comprendidos entre 25.000 y 50.000 $; etc.
Analizando primeramente el concepto de Contigencia, se puede desglosar que:
"es una eventualidad (un evento que ocurre en un momento cualquiera) y
que puede haber sido provocada o no, puede ser la consecuencia de
acciones o ser totalmente imprevista. La contingencia puede ser o no un
evento que ocasiona un problema el cual puede requerir una acción
postergable o una acción inmediata (transformándose en este último caso
en una emergencia). Desde el momento en que una contingencia puede ser
imprevista, se habla de la posibilidad de que ocurra, más la
contingencia no es en sí misma una posibilidad, sino un evento posible".
En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Supóngase que se dispone de dos variables, la primera el sexo (hombre
o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha
observado esta pareja de variables en una muestra aleatoria de 100
individuos. Se puede emplear una tabla de contingencia para expresar la
relación entre estas dos variables:
Diestro
Zurdo
TOTAL
Hombre
43
9
52
Mujer
44
4
48
TOTAL
87
13
100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres
diestros es aproximadamente igual a la proporción de mujeres diestras.
Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de Pearson,
supuesto que las cifras de la tabla son una muestra aleatoria de una
población. Si la proporción de individuos en cada columna varía entre
las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por
φ = √(χ2 / N)
donde χ2 se deriva del test de Pearson, y N es el
total de observaciones -el gran total-. Φ puede oscilar entre 0 (que
indica que no existe asociación entre las variables) e infinito. A
diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no
está acotado.
El procedimiento Correlaciones
Bivariadasde SPSS permite medir el grado de
dependencia
existente entre dos o más variables mediante la cuantificación por los
denominados
coeficientes de correlación lineal de Pearson, de Spearman y la Tau-b de
Kendall con sus respectivos niveles de
significación.
Coeficiente Rho de Spearman es unaversión no paramétrica del coeficiente de correlación
de Pearson.
Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas pruebas no paramétricas que dependen de un parámetro tal como la media. Las pruebas no paramétricas, sin embargo, no requieren una distribución particular, de manera que algunas veces son referidas como pruebas de libre distribución. Aunque libre distribución es una descripción más exacta, el término no paramétrico es más comúnmente usado.
Resulta
apropiada para datos
ordinales (susceptibles de ser ordenados) y para datos
agrupados en
intervalos que no satisfagan el supuesto de normalidad. Los valores del
coeficiente varían
de -1 a +1. El signo del coeficiente indica la dirección de la relación y
el valor absoluto
del coeficiente de correlación indica la fuerza de la relación entre las
variables. Los valores absolutos mayores
indican que la relación es mayor.
El valor cero se
da cuando no existe ninguna correlación entre las variables analizadas; el valor -1 implica una correlación perfecta de carácter inverso (o indirecto) y el valor +1 una correlación perfecta de tipo directo (cuando una crece también lo hace la otra).
Una excelente
aproximación visual para explorar el grado
de correlación es a través de un gráfico
de dispersión o nube de puntos. Se habla de correlación
positiva (o directa) cuando a valores
crecientes de una de las variables se observan
valores crecientes de la otra variable; por
el contrario, se habla de
correlación negativa (o inversa) cuando a valores crecientes de
una variable corresponden valores
decrecientes de la otra.
Entonces la correlación de Spearman será adecuada si los datos no están
normalmente distribuidos o tienen categorías
ordenadas, y que midan la asociación
entre órdenes de rangos.
Tras la especificación del coeficiente o
coeficientes de correlación que estimamos
oportuno calcular, procederemos a indicar si
queremos que se realice un contraste de
hipótesis estadística bilateral o unilateralpara casos en los
que la dirección de la relación
puede ser especificada a priori.
Este contraste, trata de probar la hipótesis
de que el coeficiente de correlación sea nulo
(r=0), esto es, que no exista relación alguna
entre las variables cuyo coeficiente de
correlación estamos cuantificando.
el
valor de la p
asociado al contraste de hipótesis (que evalúa la probabilidad de que
en la población
ambas
variables no estén correlacionadas linealmente y el el Coeficiente de
Correlación sea cero) es
0,556, no
permitiendo rechazar la hipótesis nula (contraste no significativo).
Finalmente, con el objeto de identificar
aquellos coeficientes de correlación que tienen
una mayor significación, se puede seleccionar:
Marcar las correlaciones significativas,
opción que marca los coeficientes de
correlación significativos al nivel 0,05 por medio de un
solo asterisco y los significativos al nivel
0,01 con dos.
Por tanto, a la hora de
interpretar adecuadamente un Coeficiente de Correlación se deben