Objetivo
Realiza una prueba de chi-cuadrado en una tabla de contingencia derivada de una tabulación cruzada de los recuentos de dos variables categóricas del conjunto de datos. La prueba de chi-cuadrado se utiliza para determinar si existe una asociación significativa entre las filas y columnas de una tabla; por ejemplo, si ciertas combinaciones de productos (filas) y momentos adecuados para comer (columnas) presentan un recuento particularmente bajo o alto.
El software intentará formar una tabla de contingencia entre la variable del producto y todos los demás atributos que parecen variables categóricas, también se forman tablas entre todos los pares de variables categóricas (ver adjunto Chi-Squared-Example-Data.xlsx).
Fondo
Se crea una tabla de conteos de doble entrada para cada prueba y se calcula el estadístico chi-cuadrado a partir de (a) los valores observados en cada celda (Obs) y (b) los valores esperados de cada celda bajo la hipótesis nula de ausencia de asociación entre filas y columnas. Los valores esperados (Exp) se derivan de los totales de filas y columnas. Cada celda aporta una cantidad de (Obs-Exp)²/Exp al estadístico chi-cuadrado final, que posteriormente se compara con la distribución chi-cuadrado estándar con los grados de libertad adecuados. Para una tabla con r filas y c columnas, los grados de libertad son (r-1) × (c-1).
Opciones
- Prueba a realizar: ¿Desea realizar la prueba de chi-cuadrado estándar (opción Chi² predeterminada) o la prueba exacta de Fisher (opción Fisher)? La prueba de Fisher requiere un mayor esfuerzo computacional, especialmente para tablas de contingencia mayores de 2x2, pero en teoría es la mejor opción, sobre todo si hay celdas en la tabla de contingencia con recuentos bajos (valores esperados menores a 5).
- Aplicar la corrección de Yates: Sí o No (predeterminado). La corrección de Yates modifica el cálculo del estadístico chi-cuadrado de una tabla 2x2 para ajustar el hecho de que la distribución chi-cuadrado, que es continua, se utiliza para aproximar la distribución discreta de los recuentos de la tabla. Esta opción también se conoce como "corrección de continuidad" y solo aplica a tablas 2x2.
- Número de decimales para los valores: controla la cantidad de decimales impresos en la salida para la estadística de chi-cuadrado, la razón de probabilidades y sus límites de confianza.
- Número de decimales para valores p: controla el número de decimales impresos para los valores p.
Resultados e interpretación
- Para cada prueba realizada, se genera una tabla de recuentos separada en la pestaña "Frecuencia".
- La pestaña 'Valores P' presenta los resultados de significancia de todas las pruebas en una sola tabla.
- Al seleccionar la prueba de chi-cuadrado estándar, la pestaña "Valores p" mostrará una tabla con una fila por prueba. La primera columna identifica los nombres de las dos variables categóricas que contribuyen a la tabla de frecuencias, la segunda columna muestra el estadístico de chi-cuadrado de la tabla, la tercera columna los grados de libertad y la última columna el valor p asociado. La elección del umbral depende del usuario, pero se suele declarar que cualquier valor p < 0,05 representa una asociación significativa entre las filas y columnas de la tabla de contingencia correspondiente.
- Al seleccionar la prueba de Fisher, la pestaña "Valores P" mostrará una tabla con una fila por prueba. La primera columna identifica los nombres de las dos variables categóricas que contribuyen a la tabla de frecuencias, y la última columna proporciona el valor p para determinar la significancia de la prueba de asociación. El valor p es esencialmente la proporción de todas las tablas posibles, con las mismas sumas de filas y columnas, que son tan extremas o más extremas, en términos de nivel de asociación, que la tabla observada. El valor p debe interpretarse de la forma habitual, y los valores pequeños (normalmente menores de 0,05) se declaran como indicadores de asociación significativa entre filas y columnas. Para las tablas de contingencia 2x2, existe otra forma de analizar el grado de asociación, basada en la razón de probabilidades (odds ratio), que es el producto de los dos recuentos de la diagonal principal dividido por el producto de los dos recuentos de la diagonal posterior. Por lo tanto, solo para las tablas 2x2, la tabla de resultados "Valores P" contendrá los valores de la razón de probabilidades y sus límites de confianza del 95 %. Bajo la hipótesis nula el odds ratio será 1, por lo que los odds ratios significativos son aquellos en los que el intervalo de confianza no contiene el valor de uno.
Información técnica
- La función R chisq.test del paquete 'stats' se utiliza para la prueba de chi-cuadrado, la función fisher.test, también del paquete 'stats' se utiliza para la prueba de Fisher.
Referencias
Martin Bland (2015) “Introducción a la Estadística Médica – 4.ª Edición”, Oxford University Press. Véase el capítulo 13, “Análisis de tabulaciones cruzadas”.