informe estadÍstica bivariada · web viewla estadística bivariada aborda el estudio de sucesos...
TRANSCRIPT
INFORME ESTADÍSTICA BIVARIADA
ESTADÍSTICA Y TICs
UsuarioMARÍA JOSÉ CRESPILLO CARO
ÍNDICE
1. INTRODUCCIÓN
2. OBJETIVO
- General
- Específico
3. METODOLOGÍA
3.1. POBLACIÓN DE ESTUDIO. MUESTA
3.2. VARIABLES A ANALIZAR
3.3. ANÁLISIS DE DATOS
4. RESULTADOS
5. CONCLUSIÓN
1.INTRODUCCIÓN
La estadística bivariada aborda el estudio de sucesos en los que intervienen dos
variables simultáneamente. Por una parte, se utiliza para ver procedimientos y técnicas y
responder a la cuestión de si los valores en una variable cuantitativa están
sistemáticamente relacionados con los de otra variable cuantitativa o cualitativa. Esto
nos permitirá descubrir y evaluar casos de variación conjunta de las variables o patrones
de co-variación. Por otra parte, se usa para deducir características de las variables que se
forman como una combinación lineal de otras variables.
2. OBJETIVOS
- General: utilizar la estadística bivariada para establecer la asociación entre dos
variables de nuestro fichero de datos, dando respuesta a hipótesis de investigación
específicas.
- Específicos:
- Primer objetivo (ejercicio 1):
Conocer si existe o no asociación entre las variables “sexo” y
“practicadeporte”, utilizando el software “RCommander”.
Se debe de describir y representar los datos en una tabla y establecer
una hipótesis adecuada para el estudio. Además, se ha de utilizar la
prueba estadística más adecuada para contrastar la hipótesis.
Interpretar resultados.
- Segundo objetivo (ejercicio 3):
Conocer si existe relación y cómo de fuerte es entre las variables
“peso” y “altura”, utilizando para ello el software “RCommander”.
Se deben describir y representar los datos en una tabla y establecer
una hipótesis adecuada para el estudio. Además, se ha de utilizar la
prueba estadística más adecuada para contrastar la hipótesis.
Interpretar los resultados.
3.METODOLOGÍA
3.1. POBLACIÓN DE ESTUDIO. MUESTRA
El estudio realizado consta de 291 participantes, estudiantes de primero de enfermería
de la Universidad de Sevilla, centros propios y adscritos, para conocer sus estilos de
vida y activos en salud.
3.2. VARIABLES A ANALIZAR
Dentro de este estudio, hemos trabajado con dos variables en cada caso:
Ejercicio 1
- Variable 1: sexo; es una variable cualitativa con dos categorías: varón o mujer.
- Variable 2: practicadeporte; variable cualitativa con dos categorías: sí o no.
Ejercicio 3
- Variable 1: altura; es una variable cuantitativa continua en la que hemos utilizado
como unidad de medida el metro (m).
- Variable 2: peso; es una variable cuantitativa continua en la que hemos utilizado como
unidad de medida el kilogramo (Kg).
3.3. ANÁLISIS DE DATOS
Software utilizado
Hemos utilizado el Software R-UCA-3.4.3 versión 3.3.1 para Windows. R es un
software para el análisis estadístico de datos considerado como uno de los más
interesantes y utilizados en investigación por la comunidad estadística. Apoyan esta
opinión la vasta variedad de métodos estadísticos que cubre, las capacidades gráficas
que ofrece, así como también el hecho de ser un software libre, es decir, gratuito.
Análisis estadísticos que se van a realizar
Se han usado dos test estadísticos para el análisis bivariado de las variables:
- En primer lugar, para el primer ejercicio se ha utilizado el test Chi Cuadrado, pues se
tratan de dos variables cualitativas dicotómicas.
- Por otro lado, para el segundo ejercicio (tercero en la pauta), hemos utilizado el test
de ShapiroWilk para determinar si las variables seguían o no la normalidad. Al
comprobarque no la seguían, usamos el coeficiente de correlación de Spearman para
determinar la fuerza.
4. RESULTADOS
EJERCICIO 1
Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “sexo” y “practicadeporte” (Sí, No). Para ello y usando el software
“RCommander”: describe y representa los datos en una tabla, establece una hipótesis
adecuada para el estudio, utiliza la prueba más adecuada para contrastar tu hipótesis e
interpreta los resultados.
A. Describe y representa los datos en una tabla.
En primer lugar, trataremos que en este caso nuestras dos variables, son cualitativas. La
primera variable, “sexo” dispone de dos categorías, “hombre” y “mujer”, al igual que la
segunda variable “practicadeporte”, las cuales son “Sí” o “No”.
En cuanto al sexo, tras cargar el archivo “activossalud.Rdata” en RCommander y pedir
una distribución de frecuencias en estadísticos obtenemos que:
Hombre Mujer Descripción
51 240 Observamos que en nuestra muestra
hay muchas más mujeres que
hombres, un 82`47% frente a un
17.23%, por lo que los resultados
tendrán una mayor significación o
influencia en el sexo mayoritario.
Al hacer el mismo procedimiento con la segunda variable, “practicadeporte” obtenemos
que:
Sí No Descripción
159 132 Observamos que no existe mucha
diferencia entre ambas categorías.
Practica deporte un 54,64% de
nuestra muestra, frente a un
45,36% que no lo hace.
B. Establece una hipótesis adecuada para el estudio.
Se establecen dos hipótesis, de forma que la negación de una supone la aceptación de la
otra.
- Hipótesis nula (H0): es debida al azar, establece que no hay diferencia, que hay
igualdad, es la hipótesis sobre la que se desea decidir, en este caso: el sexo no influye en
la práctica de deporte.
- Hipótesis alternativa (H1): es debida a algo más, por ejemplo a la asociación entre las
variables que estudiamos. Es contraria a H0: el sexo sí influye en la práctica de deporte.
C. Utiliza la prueba más adecuada para contrastar tu hipótesis
Al tratarse de dos variables cualitativas, la prueba más adecuada para contrastar las
hipótesis planteadas anteriormente es el uso del test de Chi Cuadrado.
Este mismo, se puede realizar de dos formas: manualmente a través de las tablas de
contingencia que se emplean para registrar y analizar la asociación entre dos o más
variables de naturaleza cualitativa o a través del software RCommander. Hay que tener
en cuenta las condiciones de aplicabilidad: pues deben de ser observaciones
independientes, variables cualitativas y las frecuencias teóricas o esperadas en cada
casilla de clasificación no deben ser menores a 5.
Sexo/practicadeporte No Sí Total
Varón 9 42 51
Mujer 123 117 240
Total 132 159 291
Estas serían las frecuencias observadas en nuestro estudio (FO). A continuación
mostraremos las frecuencias esperadas (FE): que son aquellas que deberían de haberse
observado si la H0 fuese cierta, o si ambas fueran independientes, si no estuvieran
asociadas.
Sexo/practicadeporte No Sí Total
Varón 23,134 27,865 51
Mujer 108,865 131,134 240
Total 132 159 291
Una vez obtenidas las frecuencias observadas y esperadas, procedemos a calcular Chi
Cuadrado:
X2= [(9-23.134)2 /23.134] + [(123-108.865)2 /108.865] + [(42-27.865)2 /27.865] +
[(117- 131.134)2 /131.134] = 19.163.
Por tanto, ya conocemos que el Chi Cuadrado observado es de 19.163, para terminar
con nuestro análisis y llegar a la conclusión debemos de calcular el esperado. Para ello
procedemos a calcular:
Grado de libertad (filas-1)x(columnas-1)=(2-1)x(2-1)=1
Una vez tengamos el grado de libertad (1) y el nivel de significación (0.05) vemos que
el Chi Cuadrado esperado era de 3,84.
Ahora haremos el mismo ejercicio pero a través del software “RCommander”.
Observamos de igual forma que el chi cuadrado observable es de 19,163 y que el p-
valor está por debajo de 0.05.
EJERCICIO 3
Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “altura” y “peso”. Para ello y usando el software “RCommander”:
describe y representa los datos en una tabla, establece una hipótesis adecuada para el
estudio, utiliza la prueba más adecuada para contrastar tu hipótesis e interpreta los
resultados.
A. Descripción y representación de los datos en la tabla
- En primer lugar, comprobaremos si la variable “altura” sigue la distribución normal,
usando para ello una representación en histograma y en diagrama de cajas.
Histograma variable “altura”
Diagrama de caja variable “altura”
Gráfico q-q variable “altura”
Podemos observar como en el histograma, los datos presentan una mayor acumulación
entre 1.5-1.75 m, de modo que hay asimetría, lo que indicaría que no siguen la
normalidad. Si nos centramos ahora en el diagrama de cajas, aunque no es muy acusada,
es apreciable que existen algunos valores extremos que indican ausencia de
normalidad.En el caso del gráfico q-q, la distribución se ajusta a la normalidad en el
centro y que presenta asimetría en los extremos.
- Por otro lado, comprobaremos si la segunda variable, “peso”, sigue o no la normalidad
empleando para ello el mismo método que para la variable anterior: representación
gráfica en histograma y en diagrama de dispersión.
Histograma variable “peso”
Diagrama de caja variable “peso”
Gráfica q-q variable “peso”
Analizando sendas representaciones gráficas, podemos observar como en el caso del
histograma los valores tienen a acumularse entre los 40-80 kg, de modo que es
apreciable la asimetría. En este sentido, podríamos decir que la variable “peso” tampoco
sigue la normalidad. Si continuamos analizando el diagrama de caja, ocurre lo mismo
que para la variable anterior, pero en este caso de un modo más acusado si cabe:
numerosos valores extremos, lo que indicaría, en principio, una ausencia de normalidad.
En el caso del gráfico q-q, la distribución se ajusta a la normalidad en el centro y que
presenta asimetría en los extremos, aunque algo más acusada que en la representación
de la variable “altura”.
Para verificar con total seguridad la ausencia o no de normalidad, usaremos a
continuación el test de ShapiroWilk para cada una de las variables:
Shapiro-Wilknormality test
data: altura
W = 0.96796, p-value = 0.000004686
Como bien hemos podido comprobar, el p-value= 4.686e-6 y es menor que 0.05, lo que
quiere decir que no sigue la normalidad.
Shapiro-Wilknormality test
data: peso
W = 0.89614, p-value = 8.406e-13
En este caso, el p-value= 8.406e-13 y es menor que 0.05, lo que significa que tampoco
sigue la normalidad.
B. Establece una hipótesis adecuada para el estudio
Hemos podido comprobar anteriormente que las variables se asocian linealmente pero
no siguen la distribución normal, por lo tanto, establecemos:
Ho no existe relación entre la variable “altura” y la variable “peso”, es decir, p>0.05
H1 sí existe relación entre la variable “altura” y la variable “peso”, es decir, p<0.05
C. Utiliza la prueba más adecuada para contrastar tu hipótesis
Una vez que hemos comprobado que las variables no siguen la normalidad y
establecidas las hipótesis, emplearemos el coeficiente de correlación de Spearman
para determinar la fuerza de la relación entre ambas variables.
Spearmancorrelations:
altura peso
altura 1.0000 0.6224
peso 0.6224 1.0000
Number of observations: 275
Pairwisetwo-sided p-values:
altura peso
altura <.0001
peso <.0001
Adjusted p-values (Holm'smethod)
altura peso
altura <.0001
peso <.0001
Spearman'srankcorrelation rho
data: altura and peso
S = 1308800, p-value< 2.2e-16
alternativehypothesis: true rho isnotequal to 0
sampleestimates:
rho
0.6224114
Como hemos podido comprobar, el p-value<2.2e-16, lo cual nos servirá para aceptar o
rechazar la hipótesis nula (Ho). Así mismo, para determinar la fuerza de correlación
debemos contemplar que rho=0.6224114.
D. Interpreta los resultados
4. RESULTADOS
Ejercicio 1
Interpretando los resultados, en la primera realización del ejercicio “manualmente”
vemos como el chi observado (19.163) es mayor que el esperado (3.84) por lo que hay
relación entre las variables. Esto quiere decir que rechazamos la hipótesis nula (en la
que decíamos que no tenían asociación) y aceptamos la hipótesis alternativa: el sexo
influye en la práctica deportiva.
Con el software “RCommander” observamos como tomando un nivel de confianza del
95% (0.05), el p-valor es menor que 0.05 por lo que si aceptamos la hipótesis nula
quiere decir que aceptamos un margen de error por encima del 0.05 o un nivel de acierto
menor al 95%, por lo que coincidimos con el resultado anterior: rechazamos la hipótesis
nula y aceptamos la alternativa: el sexo influye en la práctica deportiva.
En esta muestra vemos como el sexo influye en la práctica del deporte, y que este es
realizado en mayor parte por hombres que por mujeres.
Ejercicio 3
Dado que se nos proponían dos variables cuantitativas continuas, para determinar la
existencia o no de relación entre ambas variables (“altura” y “peso”), comprobamos si
las dos variables seguían la normalidad. Tras la contrastación con representaciones
gráficas y valiéndonos del test de Shapiro-Wilk, donde el p-valor fue menor a 0.05 en
ambos casos (p-value = 8.406e-13 para variable “peso” y p-value= 4.686e-6 para
variable “altura”), determinamos que ninguna de las dos variables seguía la normalidad.
Tras establecer la Ho (no existe relación entre la variable “altura” y la variable “peso”)
y la H1 (sí existe relación entre la variable “altura” y la variable “peso”), empleamos el
coeficiente de correlación de Spearman para determinar la fuerza de relación entre las
variables, obteniendo un p-value<2.2e-16, lo que significa que debíamos rechazar la
hipótesis nula (Ho) y aceptar la alternativa (H1), o lo que es lo mismo, afirmamos que
SÍ existe relación entre la variable “peso” y la variable “altura”. Una vez determinado
esto, calculamos rho=0.6224114, teniendo en cuenta para ello: r<0.3: débil; r=0.3-0.5:
moderada; r>0.5: fuerte. Por tanto, al ser rho mayor a 0.5, significa que la relación entre
sendas variables es fuerte.
5. CONCLUSIÓN
En ambos ejercicios hemos querido conocer la existencia o no de asociación entre las
variables estudiadas en cada uno de los dos casos. Para ello hemos utilizado diferentes
test dependiendo de los tipos de variables (en el primer caso usamos Chi Cuadrado
porque se trataban de dos variables cualitativas, mientras que en el segundohemos
utilizado el test de ShapiroWilk, pues eran variables cuantitativas, así como el
coeficiente de correlación de Spearman para determinar la fuerza).
Analizando los resultados, en nuestro primer objetivo, es decir, en el primer ejercicio,
hemos obtenido que el sexo sí influye en la práctica o no deportiva, siendo el sexo
masculino el que más lo práctica.
En el segundo objetivo, que responde al tercer ejercicio, hemos comprobado que
síexiste relación entre la variable “altura” y la variable “peso”, y esta es fuerte.