tema 3. el estadístico chi-cuadrado y contrastes asociados objetivos del tema 3 en este tema aprenderás a: * dar una medida

Tema 3. El estadístico Chi-cuadrado y contrastes asociados
Objetivos del tema 3
En este tema aprenderás a:
*
Dar una medida de la diferencia entre frecuencias observadas y
esperadas en caso de independencia en una tabla de contingencia
*
Calcular e interpretar el estadístico Chi-cuadrado y sus grados de
libertad
*
Recordar los pasos y conceptos básicos en un contraste de
hipótesis
*
Comprender los pasos para llevar a cabo el contraste de
independencia
*
Contrastar la hipótesis de que dos variables en una tabla de
contingencia son independientes, decidiendo si el valor
Chi-cuadrado es estadísticamente significativo y tomando una
decisión sobre el rechazo o de la hipótesis nula
*
Interpretar el nivel de significación
*
Realizar un contraste de Chi-cuadrado de homogeneidad para
comprobar si varias subpoblaciones vienen de la misma población
*
Comprender los supuestos de aplicación del contraste Chi-cuadrado

Ronald Aylmer Fisher
1.
Introducción
Hasta ahora hemos analizado la existencia de asociación en los datos
de una muestra dada, sin intentar extender las conclusiones a una
población más amplia. En este tema estudiaremos la realización de una
inferencia, donde se desea estudiar si la asociación encontrada entre
dos variables en una muestra tomada al azar de una población mayor
podría extenderse a la población de donde se tomaron los datos. Para
ello, realizaremos un contraste de hipótesis.
Hay dos tipos de hipótesis que interesa contrastar, a partir de los
datos de contingencia, el contraste de homogeneidad y el contraste de
independencia. Los dos tipos de contrastes utilizan los datos de una
tabla de contingencia y se basan en el estadístico Chi-cuadrado que
estudiamos a continuación.
2.
El estadístico Chi-cuadrado
Una medida muy extendida para medir la dependencia e independencia, es
el estadístico Chi-cuadrado, que da una medida de la diferencia entre
las frecuencias observadas en la tabla y las “frecuencias esperadas en
caso de independencia”. Recordamos el cálculo de dichas frecuencias
esperadas eij:

Con el estadístico Chi-cuadrado se obtiene una medida de diferencia
entre las frecuencias esperadas y las frecuencias observadas. El
estadístico se calcula en la forma siguiente:
,
Observamos las siguientes propiedades de este estadístico:
*
Si todas las frecuencias observadas son iguales a la
correspondiente frecuencia esperada, entonces =
.
*
Esto ocurre sólo cuando las dos variables de la tabla son
independientes; Por tanto, si hay independencia entre las dos
variables de la tabla,
*
Cuanto mayor sea la diferencia entre las frecuencias observadas y
esperadas en la tabla, el valor de Chi cuadrado será mayor. Es
decir, a mayor intensidad de la asociación entre las variables,
Chi-cuadrado será mayor.
*
El valor de Chi-cuadrado siempre es positivo o cero (pues es suma
de números positivos, ya que los denominadores de la suma son
todos positivos al ser suma de números elevados al cuadrado.
*
En general, a mayor número de sumandos, se obtendrá un valor
mayor.
Los grados de libertad de un estadístico calculado sobre un conjunto
datos se refieren al número de cantidades independientes que se
necesitan en su cálculo, menos el número de restricciones que ligan a
las observaciones y el estadístico. El número de grados de libertad
del estadístico Chi-cuadrado se calcula de la siguiente forma:
*
Se calcula, en primer lugar el número de sumandos, es decir m x n,
siendo n y m el número de filas y número de columnas en la tabla.
*
A esta cantidad se debe restar el número de restricciones
impuestas a las frecuencias observadas. Observamos que podemos
cambiar todas las frecuencias de la tabla sin cambiar los totales
por filas y columnas, excepto los datos en la última fila y la
última columna de la tabla, pues una vez que fijemos todos los
valores excepto estos, quedan automáticamente fijados. Por tanto,
si la tabla tiene m filas y n columnas, el número de grados de
libertad es (m-1) x (n-1). Expresamos esta dependencia en la
siguiente forma:

Ejemplo 3.1. Supervivencia en el Titanic
El 10 de abril de 1912, el Titanic zarpaba con 1317 pasajeros a bordo,
ante la admiración de una muchedumbre de curiosos que contemplaban
atónitos como aquella mole de acero se alejaba majestuosamente del
puerto. Cinco días después los medios de comunicación de todo el mundo
se hicieron eco de la increíble noticia: el barco más grande jamás
construido yacía a casi cuatro mil metros de profundidad. La tabla 3.1
muestra la distribución de pasajeros, según supervivencia y clase
social
Tabla 3.1. Distribución de pasajeros en el Titanic según supervivencia
y clase social
Sobrevive
No sobrevive
Total
Primera clase
194
128
322
Segunda clase
119
161
280
Tercera clase
138
573
711
Total
451
862
1313
Calculemos en el ejemplo las frecuencias esperadas en caso de
independencia. Observamos que, una vez calculados los datos de la
primera columna, los de la segunda se deducen automáticamente (es
decir no son libres). Lo mismo ocurre con la última fila, una vez
calculadas las dos primeras, queda automáticamente fijada. Por tanto
los grados de libertad son (3-1)x(2-1)=2=k (denotamos como k. los
grados de libertad)

En la tabla 3.2 mostramos las frecuencias esperadas en caso de
independencia. Observamos que los grados de libertad son sólo 2, pues
una vez calculadas una frecuencia esperada en la primera fila y otra
en la segunda, las demás se deducen automáticamente, si no queremos
variar los totales de filas y columnas.
Tabla 3.2. Frecuencias esperadas en el Titanic según supervivencia y
clase social
Sobrevive
No sobrevive
Total
Primera clase
110,6
211,4
322
Segunda clase
96,2
183,8
280
Tercera clase
244,2
466,8
711
Total
451
862
1313
Observamos, al comparar las tablas 3.1 y 3.2 que en primer clase hay
mayor frecuencia observada que la esperada de supervivencia si no
hubiese relación entre supervivencia y clase social. Mientras en
segunda clase hay unos pocos más de lo esperado y en tercera casi la
mitad de lo esperado. ¡El salvamento no fue entonces equitativo! A
continuación llevamos a cabo los cálculos del estadístico Chi-
cuadrado:
Tabla 3.3. Cálculo de Chi cuadrado
Sobrevive
No sobrevive
Primera clase


Segunda clase


Tercera clase


= 62,9+32,9+5,4+2,8+46,2+24,2 = 174,4
Los grados de libertad, en este caso son k= (3-1)x(2-1) = 2.
En la figura 3.1 mostramos la forma que toma el estadístico
Chi-cuadrado, en caso de variables independientes, para diverso número
de grados de libertad. Como hemos indicado, a mayor número de grados
de libertad el valor será mayor. Así, para 4 grados de libertad la
moda (valor más probable) se sitúa cerca del valor 5, mientras que
para 32 grados de libertad se sitúa cerca de 39.
El valor obtenido 174,4 es muy poco probable en caso de independencia,
pues observamos que para 2 grados de libertad los valores mayores que
10 apenas aparece. De hecho la probabilidad de obtener un valor mayor
que 10,6 es sólo 0,005. Deducimos que el salvamento de los viajeros en
el Titanic no fue independiente de su clase social.
Figura 3.1. Forma del estadístico Chi-cuadrado

Probabilidad de un valor superior - Alfa (α)
Grados libertad
0,1
0,05
0,025
0,01
0,005
1
2,71
3,84
5,02
6,63
7,88
2
4,61
5,99
7,38
9,21
10,60
3
6,25
7,81
9,35
11,34
12,84
4
7,78
9,49
11,14
13,28
14,86
5
9,24
11,07
12,83
15,09
16,75
6
10,64
12,59
14,45
16,81
18,55
7
12,02
14,07
16,01
18,48
20,28
8
13,36
15,51
17,53
20,09
21,95
9
14,68
16,92
19,02
21,67
23,59
10
15,99
18,31
20,48
23,21
25,19
11
17,28
19,68
21,92
24,73
26,76
12
18,55
21,03
23,34
26,22
28,30
13
19,81
22,36
24,74
27,69
29,82
14
21,06
23,68
26,12
29,14
31,32
15
22,31
25,00
27,49
30,58
32,80
16
23,54
26,30
28,85
32,00
34,27
17
24,77
27,59
30,19
33,41
35,72
18
25,99
28,87
31,53
34,81
37,16
19
27,20
30,14
32,85
36,19
38,58
20
28,41
31,41
34,17
37,57
40,00
21
29,62
32,67
35,48
38,93
41,40
22
30,81
33,92
36,78
40,29
42,80
23
32,01
35,17
38,08
41,64
44,18
24
33,20
36,42
39,36
42,98
45,56
25
34,38
37,65
40,65
44,31
46,93
26
35,56
38,89
41,92
45,64
48,29
27
36,74
40,11
43,19
46,96
49,65
28
37,92
41,34
44,46
48,28
50,99
29
39,09
42,56
45,72
49,59
52,34
30
40,26
43,77
46,98
50,89
53,67
3.
Contraste de independencia
En el ejemplo 3.1 hemos llevado a cabo un contraste de independencia
Chi-cuadrado, que nos permite determinar si existe una relación entre
dos variables categóricas.
Recordarás que un contraste de hipótesis es un procedimiento
estadístico, con una serie de pasos que lleva a la aceptación o
rechazo de una hipótesis estadística. Los pasos a realizar en un
contraste de hipótesis son los siguientes:
1.
Fijar las hipótesis que se quieren contrastar: La hipótesis nula H0
y la hipótesis alternativa H1. Estas hipótesis son complementarias
una de otra.
2.
Fijar el nivel de significación, o probabilidad máxima de rechazar
la hipótesis nula H0, en caso de que sea cierta. Recordemos que el
nivel de significación α es la probabilidad de Error Tipo I
(probabilidad de rechazar la hipótesis nula, cuando de hecho es
cierta).
3.
Elegir un estadístico de contraste, que tenga alguna relación con
la hipótesis. Formación a partir del estadístico de una regla de
decisión, dividiendo los posibles valores del estadístico en dos
regiones: (a) Si el estadístico cae en la región crítica (o de
rechazo), se rechaza la hipótesis nula; (b) si el estadístico cae
en la región de aceptación, no se puede rechazar la hipótesis
nula.
4.
Se comprueba el valor del estadístico y se toma la decisión de
rechazar o no la hipótesis.
En el contraste de independencia, se desea decidir si las dos
variables en una tabla de contingencia están o no asociadas. Siguiendo
los pasos anteriores, se tendría
1.
Fijar las hipótesis que se quieren contrastar. Estas hipótesis son
las siguientes:
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociación entre las filas y columnas de la tabla
2.
Fijamos el nivel de significación; lo más usual es elegir un valor
α=0,05. Esto quiere decir que la probabilidad máxima que fijamos
para el error tipo I (rechazar la hipótesis de independencia
cuando sea falsa) es 0,05.
3.
Elegir un estadístico de contraste, que tenga alguna relación con
la hipótesis. En este caso, elegimos el estadístico Chi cuadrado,
, que tiene relación con la hipótesis nula, pues se basa
en la comparación de frecuencias observadas y frecuencias
esperadas en caso de independencia. Si la hipótesis nula H0 es
cierta (hay independencia entre filas y columnas) es de esperar un
valor del Chi cuadrado será pequeño y si, por el contrario es
falsa, será grande. Formaremos una regla decisión, dividiendo los
posibles valores de Chi- cuadrado en dos regiones:
*
Si el valor calculado tiene una probabilidad menor que
(nivel de significación) rechazamos la hipótesis nula H0
(hay independencia entre filas y columnas), pues el valor obtenido
es improbable para una tabla con filas y columnas independientes.
En este caso, suponemos que las variables están asociadas.
*
Si el valor calculado tiene una probabilidad igual o mayor
que (nivel de significación) no podemos rechazar la
hipótesis nula H0. En este caso no tomamos ninguna decisión.
Nota: Observamos que el rechazo de la hipótesis nula tiene más fuerza
que su aceptación, pues nos basamos en una situación muy poco
probable: De ser cierta la independencia de las variables es muy poco
probable obtener un alto valor de Chi- cuadrado. Por tanto, si
obtenemos un alto valor de Chi-cuadrado, rechazamos que la hipótesis
sea cierta.
Pero un valor pequeño de Chi cuadrado puede ser debido a varias
causas: Puede ser que las variables sean independientes; puede ser que
estén asociadas, pero la asociación sea muy pequeña; o puede ser que
el tamaño de la muestra de datos sea pequeño y no permita ver la
asociación. En este caso (cuando no podemos rechazar la hipótesis
nula) tendríamos que estudiar mejor los datos para ver por qué se
obtiene este valor pequeño de Chi- cuadrado.
Ejemplo 3.2. Deporte y bienestar
Un investigador quiere estudiar si hay asociación entre la práctica
deportiva y la sensación de bienestar. Extrae una muestra aleatoria de
100 sujetos. Los datos aparecen a continuación.
Sensación de
Bienestar
Práctica deportiva
Total

no

20
25
45
No
10
45
55
Total
30
70
100
Contraste la hipótesis de independencia entre bienestar y práctica de
deporte (alfa = 0,01).
Primero calculamos las frecuencias esperadas en caso de independencia:

Tabla 3.4. Frecuencias esperadas
Sensación de
Bienestar
Práctica deportiva

No

13,5
31,5
No
16,5
38,5
Posteriormente calculamos el estadístico Chi-cuadrado:
= 3,1296 + 2,5606 + 1,3413 + 1,0974 = 8,13
Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1; Mirando en la
tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor
8,13 o mayor con 1 grado de libertad es p = 0,004. Por tanto el valor
es estadísticamente significativo, pues es menor que 0,01.
La decisión que se debe tomar es rechazar la hipótesis de
independencia entre bienestar y práctica deportiva.
4.
Contraste de homogeneidad
Otro caso en que usamos una tabla de contingencia es aquél en que se
dispone de una población X clasificada en r subpoblaciones x1, x2,...,xr.
En cada una de estas poblaciones se toma una muestra, y los individuos
de la misma se clasifican según una variable Y que puede tomar m
valores posibles y1, y2.....ym. Sea pij la proporción de individuos
que, en la población xi tiene como valor de Y=yj.
Un contraste de homogeneidad es cuando se desean contrastar las dos
hipótesis siguientes:
*
H0:p1j = p2j = ...... = pmj para todo j; dicho de otro modo, todas
las subpoblaciones tienen idéntica distribución para la variable
Y.
*
H1: algunas de estas proporciones son diferentes. Dicho de otro
modo, la distribución de la variable Y en alguna de estas
subpoblaciones es diferente
El principal objetivo de realizar este contraste es comprobar que las
distribuciones de todas las subpoblaciones son iguales o si hay alguna
que difiere. Esto nos resulta práctico para poder combinar los
resultados de todas las subpoblaciones, pues es necesario asegurarse
de que los datos de las distintas muestras que se pretende agrupar son
homogéneos.
Ejemplo 3.3. Grupo sanguíneo.
Se desea saber si la distribución de los grupos sanguíneos es similar
en los individuos de dos poblaciones. Para ello se elige una muestra
aleatoria de cada una de ellas, obteniéndose los siguientes datos ¿Qué
decisión se debe tomar?
A
B
AB
0
Total
Muestra 1
90
80
110
20
300
Muestra 2
200
180
240
30
650
Total
290
260
350
50
950
Calculamos las frecuencias esperadas:
Tabla 3.5. Frecuencias esperadas
A
B
AB
0
Muestra 1
91.5789
82.105
110.53
15.789
Muestra 2
198.421
177.89
239.47
34.211
Posteriormente calculamos:
= 1,76
Los grados de libertad son: (n-1) x (m-1) = 1 x 3 = 3
Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de
obtener un valor 7,81 o mayor con 3 grado de libertad es p = 0,184.
Por tanto el valor es no estadísticamente significativo, pues es mayor
que 0,01. Aceptamos la hipótesis de homogeneidad de grupos sanguíneos
en las dos muestras.
5.
Interpretación y cálculo del p valor
El p-valor se puede interpretar de dos maneras diferentes:
*
La probabilidad de rechazar la hipótesis nula cuando en verdad es
cierta.
*
La probabilidad de obtener un valor del estadístico igual o mayor
al dado, cuando la hipótesis nula es cierta.
Esto significa en el caso de un contraste de independencia:
*
Un valor cercano a p=0, indicaría un valor muy improbable de
Chi-cuadrado si la hipótesis nula es cierta; por tanto llevaría a
rechazar la hipótesis de independencia
*
Un valor cercano a p=1, indicaría un valor muy probable de
Chi-cuadrado si la hipótesis nula es cierta; por tanto no
rechazaríamos la hipótesis de independencia
Cálculo del p valor:
Primero: los grados de libertad, gl= (filas-1) x (columnas-1).
Segundo: te sitúas en esos grados de libertad en la tabla (fila).
Tercero: buscas el valor de Chi- cuadrado de tu caso en la fila del
segundo paso.
Cuarto: cuando lo sitúes, el valor de p será el que se indica en la
parte superior de esa columna.
Por ejemplo, en el caso de grados de libertad = 1 y el valor del test
sea 7,88, p=0,005.
Nota: Cuanto más alto es el valor de Chi cuadrado, más bajo es p-valor
6.
Condiciones de aplicación de Chi- cuadrado
*
Observa que al estudiar el valor de Chi-cuadrado en la tabla de la
distribución, obtenemos siempre un valor positivo. Es decir,
siempre hacemos un contraste unilateral.
*
Si las frecuencias esperadas en las celdas son muy pequeñas,
puesto que en la fórmula aparecen dividiendo, se obtendría
un valor alto de Chi-cuadrado, aunque las diferencias entre
frecuencias observadas y esperadas fuese grande. Por eso, se
recomienda que se use una muestra de suficiente tamaño. Estas son
dos recomendaciones importantes
- Como máximo el 20% de las frecuencias esperadas pueden ser menores
que el valor 5.
- No debe usarse si hay frecuencias esperadas inferiores a 1.
Ejercicios resueltos del tema 3
Ejercicio 3.1. Inmigración.
Se desea estudiar hasta qué punto existe relación entre el tiempo de
residencia de inmigrantes en nuestro país y su percepción de
integración. Se dispone de una muestra pequeña de 230 inmigrantes a
los que se les evaluó en ambas variables obteniéndose la siguiente
tabla de frecuencias observadas. ¿Confirman estos datos la hipótesis
planteada con un nivel de confianza del 95%?
Tiempo de
Residencia
Grado de integración
Total
Bajo
Alto
Más tiempo
40
90
130
Menos tiempo
90
10
100
Total
130
100
230
Calculamos las frecuencias esperadas: como ninguna es menor
que 1 y sólo una es menor que 5.
Tabla 3.6. Frecuencias esperadas
Tiempo de
residencia
Grado de integración
Bajo
Alto
Más tiempo
73,478
56,52
Menos tiempo
56,522
43,48
Posteriormente calculamos el estadístico Chi-cuadrado:
= 80,69
Los grados de libertad son: (n-1) x (m-1) = 1 x 1 = 1. Al buscar en la
tabla de Chi-cuadrado obtenemos un valor p = 0,000. Por tanto el
Chi-cuadrado es estadísticamente significativo y rechazamos la
hipótesis de independencia de las variables.
7

  • RITTER’S A TRADITION OF SERVICE IN TERMS OF
  • 19 MAG DR KURT DREXEL GEBOREN AM 17 MAI
  • 022011 SUPP(CRI3) SUPERVISOR STANDARD AND DECLARATION FORM USE
  • CURRICULUM VITAE INGENIERO MÉCANICO INDUSTRIAL NOÉ MISAEL
  • PRJ – 11JUL16 KSZBCSS WEBSERVICES OMGEVINGEN INDEX
  • MATERIAL MASTER NUMBER REQUEST FORM INSTRUCTIONS PRIOR TO REQUESTING
  • INTRODUCCIÓN A LA EMPRESA PROGRAMA DE LA SEGUNDA
  • OKVIRNA PITANJA ZA II KOLOKVIJUM IZ NASLEDNOG PRAVA 1
  • AUTOLIQUIDACIÓN IMPUESTO SOBRE CONSTRUCCIONES INSTALACIONES Y OBRAS TASA POR
  • XTREME SPORTS WARM UP XSPORTS PARACHUTING FROM BUILDINGS
  • RASCALS CLUB STAFF BEHAVIOUR POLICY RASCALS EXPECTS
  • 817 NORMAS DE CONFLICTO MATRIMONIALES DEL ART 92 DEL
  • FINANCIAL COMPLIANCE DECLARATION I XXX (NAME) MADE THIS APPLICATION
  • KLASA 03001150302 URBROJ 4260201157 ZAGREB 25052015 SVIM GOSPODARSKIM
  • LATEST FREE EBOOKS SACA AL ESCRITOR QUE LLEVAS
  • BRAIN INJURY PRIMER A FREE ONLINE COURSE AVAILABLE THROUGH
  • CURRICULUM VITAE ETAT CIVIL PRÉNOM ALHOUSSEYNOU MOCTAR NOM
  • CONTRACT LABOUR (REGULATION & ABOLITION) CENTRAL RULES FORM XXII
  • ỦY BAN NHÂN DÂN TỈNH BẮC NINH SỐ 3027UBNDKGVX
  • 380000 ЭКОНОМИКА НАЗВАНИЕ ИЗДАНИЯ АВТОР ИЗДАТЕЛЬСТВО ГОД ИЗДАНИЯ ОПТОВАЯ
  • 2421 PENSAMIENTO NUMÉRICO Y SISTEMAS NUMÉRICOS EN LA MAYOR
  • R ELACIÓN DE PÁGINAS WEB DEDICADAS A LA BÚSQUEDA
  • ANTRAGSFORMULAR LAND BRANDENBURG A N T R A
  • EVIDENČNÍ ČÍSLO ŽADATELE PŘIHLÁŠKA KE ZDOKONALOVÁNÍ ODBORNÉ ZPŮSOBILOSTI ŘIDIČŮ
  • GÉZA KÁLLAY MEDIEVAL AND RENAISSANCE DRAMA I
  • REGENTS EXAM QUESTIONS ACEDA1 EXPONENTIAL GROWTH PAGE 7 WWWJMAPORG
  • VANDERBILT STUDENT VOLUNTEERS FOR SCIENCE HTTPSTUDENTORGSVANDERBILTEDUVSVS ELECTRICAL CONDUCTIVITY SPRING
  • KÉRELEM A SZELLEMI KULTURÁLIS ÖRÖKSÉG MAGYARORSZÁGI LOGOJÁNAK HASZNÁLATÁRA A
  • CURRICULUM VITAE PERSONAL INFORMATION ADMIR JUKAN + 387 62191222
  • UNIVERSIDADE ESTADUAL DA PARAÍBA REITORIA COORDENADORIA DE RELAÇÕES INTERNACIONAIS