antologia de estadistica

176
Estadistica Inferencial 2013 1 Instituto Tecnológico Superior De Jesús Carranza (I T S J C) CLAVE DE LA MATERIA: GEC 9013 ANTOLOGÍA: ESTADISTICA INFERENCIAL PRESENTA: ING. JUAN FRANCISCO GÓMEZ VALENCIA SEMESTRE: 403.-A INGENIERÍA: EN GESTIÓN EMPRESARIAL JESÚS CARRANZA VERACRUZ 7 DE ENERO DEL 2013

Upload: araceli-rivera-manuel

Post on 30-Oct-2015

183 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 1/176

Estadistica Inferencial

2013

1

Instituto Tecnológico Superior De Jesús Carranza(I T S J C)

CLAVE DE LA MATERIA: GEC 9013

ANTOLOGÍA: ESTADISTICA INFERENCIAL

PRESENTA: ING. JUAN FRANCISCO GÓMEZ VALENCIA

SEMESTRE: 403.-A

INGENIERÍA: EN GESTIÓN EMPRESARIAL

JESÚS CARRANZA VERACRUZ 7 DE ENERO DEL 2013

Page 2: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 2/176

Estadistica Inferencial

2013

2

UNIDAD 1 INTRODUCCIÓN A LA ESTADISTICA INFERENCIAL

1.1 Breve historia de la estadística………………………………………………….4

1.2 Concepto de estadística………………………………………………………….51.3 Estadística descriptiva…………………………………………………………….51.4 Estadística inferencial……………………………………………………………..51.5 Breve introducción a la inferencia estadística………………………………...71.6 Teoría de decisión en estadística……………………………………………….111.7 Componentes de una investigación estadística…………………………......161.8 Recolección de datos………………………………………………………… ..…191.9 Estadística paramétrica (población y muestra aleatoria)………………..…271.10 Aplicaciones………………………………………………………………………. 33

UNIDAD 2 INFERENCIA ESTADÍSTICA

2.1 Conceptos Básicos………………………………………………………………382.2 Distribuciones de muestreo……………………………………………………412.3 Estimación puntual………………………………………………………………472.4 Estimación de intervalo…………………………………………………………472.5 Intervalos de confianza para medias…………………………………………492.6 Intervalos de confianza para diferencia entre medias…………………….522.7 Intervalos de confianza para proporciones…………………………………572.8 Intervalos de confianza para diferencias entre proporciones……………622.9 Intervalos de confianza para varianzas………………………………………662.10 Intervalos de confianza para razones de dos varianzas…………………70

UNIDAD 3 PRUEBA DE HIPOTESIS CON UNA MUESTRA

3.1 Metodología para la prueba de hipótesis……………………………………743.2 Hipótesis nula y alternativa……………………………………………………753.3 Error tipo I y error tipo II…………………………………………………….….763.4 Pruebas de hipótesis Z para la media (desviación estándar poblacionalconocida)………………………………………………………………………………763.5 Pruebas para proporciones……………………………………………………763.6 Selección del tamaño de muestra ( para estimar la media poblacional)783.7 Selección del tamaño de muestra (para estimar la proporciónpoblacional)……………………………………………………………………… ..….80

Page 3: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 3/176

Estadistica Inferencial

2013

3

UNIDAD 4 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE DATOS NUMERICOS

4.1 Introducción………………………………………………………………………914.2 Distribuciones normal y t de Student………………………………………..944.3 Pruebas de significancia……………………………………………………….984.4 Comparación de dos muestras independientes: Pruebas t para lasdiferencias entre dos medias………………………………………………………1044.5 Prueba de Fisher para varianzas y deigualdad de las varianzas de dospoblaciones normales……………………………………………………………….1064.6 Comparaciones de dos muestras pareadas…………………………………1154.7 Modelo totalmente aleatorio: análisis devarianza de un factor …………………………………………………………………1224.8 Selección del tamaño de muestra parareadasestimar la diferencia de dos medias………………………………………………1234.9 Aplicaciones………………………………………………………………………130

UNIDAD 5 PREUBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIASMUESTRAS DE NÚMEROS CATEGORICOS

5.1 Prueba Z para la diferencia entre dos proporciones………………………1405.2 Prueba para la diferencia entre dos proporciones…………………………1445.3 Prueba para la diferencia en n proporciones Z……………………………..1525.4 Prueba de independencia (ji-cuadrada)………………………………………1525.5 Pruebas de contingencia (ji-cuadrada)…………………………………….…1565.6 Pruebas de bondad de ajuste……………………………………………….…1645.7 Aplicaciones…………………………………………………………………… ...174

BIBLIOGRAFÍA……………………………………………………………………….176 

Page 4: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 4/176

Estadistica Inferencial

2013

4

1.1.-Breve historia de la estadistica

INFERENCIA ESTADÍSTICA

INTRODUCCIÓN.

El empleo de encuestas es uno de los métodos de investigación másutilizados en la actualidad. La realidad, en continuo cambio y con muchísimasopciones diferentes, es muy difícil de abarcar en su totalidad. Por este motivo sehace necesario seleccionar una parte lo más pequeña posible, pero representativadel total, en la que sea posible medir las características deseadas. Esta necesidadha obligado a crear un instrumento matemático que llamamos muestreo.

Las muestras que se elijan para hacer un estudio deben ser lo máspequeñas posible por exigencias de tiempo y coste. Además, el aumento delnúmero de datos no siempre acarrea una mayor certeza, ya que más importanteque escoger muchos datos es que los datos estén bien seleccionados, con el finde que sean representativos de la población que se desea estudiar. Se verá comoel azar juega un papel importante en la elección de la muestra para que ésta searepresentativa.

En este tema estudiaremos dos parámetros de una población: la media deuna determinada característica numérica y la proporción o porcentaje de lapoblación que comparte un determinado rasgo común.

La inferencia estadística se basa en resultados de la teoría de laprobabilidad, los cuales nos aseguran, que al estudiar la media o la proporción demuestras, tomadas adecuadamente en la población, estas características seránmuy similares a las de la población total.

El método de inferencia estadística hace estimaciones de lo que ocurre entoda la población estudiando lo que ocurre en una parte de la misma (la muestra).Como se pretende sacar conclusiones sobre el total de la población a partir de unamuestra de la misma, estas conclusiones estarán sujetas a error. La teoría de laprobabilidad permite también acompañar a la estimación muestral de una media ode una proporción, en una población, de la probabilidad de que el error cometidono exceda de un determinado valor, o del riesgo (probabilidad de equivocación)que se corre al aceptar o al rechazar una hipótesis sobre los valores de la media ode la proporción de la población.

 Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas. Por esta razón trataremos previamente a los métodos dela inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar las inferencias,controlando el posible error.

Page 5: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 5/176

Estadistica Inferencial

2013

5

Para trabajar este tema se necesita el manejo de los númeroscombinatorios como herramienta de cálculo y el conocimiento y uso de ladistribución normal y sus propiedades.

Finalmente, insistir en la importancia de la inferencia estadística comodisciplina fundamental en todas las áreas científicas, tanto naturales comosociales.

1.2.-Concepto de estadística

La estadística es el conjunto de técnicas que se emplean para la recolección,organización, análisis e interpretación de datos. Los datos pueden ser cuantitativos, con valores expresados numéricamente, o cualitativos, en cuyo casose tabulan las características de las observaciones. La estadística sirve enadministración y economía para tomar mejores decisiones a partir de lacomprensión de las fuentes de variación y de la detección de patrones yrelaciones en datos económicos y administrativos.

1.3.-Estadistica descriptiva.

La estadística descriptiva comprende las técnicas que se emplean para resumir ydescribir datos numéricos. Estos métodos pueden ser gráficos o implicar análisiscomputacional.

Ejemplo. El volumen mensual de ventas de un producto durante el año anterior puede describirse y cobrar significado elaborando un diagrama de barras o unagráfica de líneas. Las ventas relativas por mes pueden resaltarse calculando unnúmero Índice para cada mes, con lo que la desviación respecto de 100 decualquier mes indicaría la desviación porcentual de ventas de ese mes encomparación con las ventas mensuales promedio durante todo el año.

1.4.-Estadistica inferencial

La estadística inferencial comprende las técnicas con las que, con baseúnicamente en una muestra sometida a observación, se toman decisiones sobreuna población o proceso estadísticos. Dado que estas decisiones se toman encondiciones de incertidumbre, suponen el uso de conceptos de probabilidad.Mientras que a las características medidas de una muestra se les llamaestadísticas muestrales, a las características medidas de una poblaciónestadística, o universo, se les llama parámetros de la población. El procedimientopara la medición de las características de todos los miembros de una poblacióndefinida se llama censo. Cuando la inferencia estadística se usa en el control deprocesos, al muestreo, le interesa en particular el descubrimiento y control de lasfuentes de variación en la calidad de la producción.

Page 6: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 6/176

Estadistica Inferencial

2013

6

Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivoeléctrico, una muestra de estos dispositivos puede someterse a voltajes crecienteshasta que falle cada uno de ellos. Con base en estos resultados muestrales puedeestimarse la probabilidad de falla a varios niveles de voltaje de los demásdispositivos de la población muestreada.

La población es un agregado de unidades individuales, compuesto de personas ocosas que se hallan en una situación determinada. Las unidades individuales sellaman unidades elementales. Definir una población es determinar sus unidadeselementales de acuerdo con el interés que se tiene respecto a algunacaracterística de aquélla.

Tanto la definición de una población como la característica por observar de susunidades elementales dependen de la naturaleza del problema. Por ejemplo, si elproblema es "Camisas para personas adultas de El Salvador", se trata dedeterminar la cantidad adecuada de producción de camisas de acuerdo con lasdiversas medidas. La población son todas las personas adultas de El Salvador. Lacaracterística de interés son las medidas del cuello de las personas adultas endicho país.

Veamos otro ejemplo: las cuotas diferenciadas para alumnos de la UES(Universidad de El Salvador). El problema por resolver es la asignación de lascuotas a los estudiantes. La población son los alumnos (o sus padres) de la UES;la característica de interés es el monto de los ingresos de dichos estudiantes.

Las poblaciones pueden ser infinitas o finitas. Una población infinita es la quecontiene un número infinito de unidades elementales; por ejemplo, el conjunto depiezas que se obtienen en un proceso productivo; en el sentido de que se siguenproduciendo indefinidamente. Otro ejemplo son todos los posibles resultados allanzar una moneda sin cesar.

Una población es finita cuando tiene un número finito de unidades elementales.Por ejemplo, los estudiantes de una determinada universidad; el número deescuelas que existen en una determinada ciudad, el número de árboles de cocosembrados en una determinada parcela, etcétera. El número de unidadeselementales de una población se denota con la letra N.

Una muestra es una parte de la población; por ejemplo, cuando se desea hacer unestudio relativo al rendimiento académico de los alumnos de cierta universidad, ypara esto se toma sólo un grupo de estudiantes de la misma. Todos losestudiantes de ella son la población y el grupo escogido constituye la muestra. Esimportante hacer notar que para hacer una investigación mediante el análisis deuna muestra, ésta tiene que ser, necesariamente, representativa. Larepresentatividad de la muestra implica que cada unidad de la población debetener igual probabilidad de ser seleccionada. En estas condiciones, se dice que lamuestra es aleatoria. La obtención de una muestra representativa es uno de losaspectos más importantes de la teoría estadística. Incluye preguntas como, ¿qué

Page 7: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 7/176

Estadistica Inferencial

2013

7

tan grande debe ser la muestra?, ¿qué tipo de datos deben ser recolectados?,¿cómo se recogerán éstos? Estas preguntas serán contestadas más adelante. (Elnúmero de unidades elementales de una muestra se denota con la letra n).

1.5.-Breve introducción a la estadística inferencial

El empleo de encuestas es uno de los métodos de investigación más utilizados enla actualidad. La realidad, en continuo cambio y con muchísimas opcionesdiferentes, es muy difícil de abarcar en su totalidad. Por este motivo se hacenecesario seleccionar una parte lo más pequeña posible, pero representativa deltotal, en la que sea posible medir las características deseadas. Esta necesidad haobligado a crear un instrumento matemático que llamamos muestreo.

Las muestras que se elijan para hacer un estudio deben ser lo máspequeñas posible por exigencias de tiempo y coste. Además, el aumento delnúmero de datos no siempre acarrea una mayor certeza, ya que más importanteque escoger muchos datos es que los datos estén bien seleccionados, con el finde que sean representativos de la población que se desea estudiar. Se verá comoel azar juega un papel importante en la elección de la muestra para que ésta searepresentativa.

En este tema estudiaremos dos parámetros de una población: la media deuna determinada característica numérica y la proporción o porcentaje de lapoblación que comparte un determinado rasgo común.

La inferencia estadística se basa en resultados de la teoría de laprobabilidad, los cuales nos aseguran, que al estudiar la media o la proporción demuestras, tomadas adecuadamente en la población, estas características seránmuy similares a las de la población total.

El método de inferencia estadística hace estimaciones de lo que ocurre entoda la población estudiando lo que ocurre en una parte de la misma (la muestra).Como se pretende sacar conclusiones sobre el total de la población a partir de unamuestra de la misma, estas conclusiones estarán sujetas a error. La teoría de laprobabilidad permite también acompañar a la estimación muestral de una media ode una proporción, en una población, de la probabilidad de que el error cometidono exceda de un determinado valor, o del riesgo (probabilidad de equivocación)que se corre al aceptar o al rechazar una hipótesis sobre los valores de la media ode la proporción de la población.

 Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas. Por esta razón trataremos previamente a los métodos dela inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar las inferencias,controlando el posible error.

Page 8: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 8/176

Estadistica Inferencial

2013

8

Para trabajar este tema se necesita el manejo de los númeroscombinatorios como herramienta de cálculo y el conocimiento y uso de ladistribución normal y sus propiedades.

Finalmente, insistir en la importancia de la inferencia estadística como

disciplina fundamental en todas las áreas científicas, tanto naturales comosociales.

POBLACIÓN Y MUESTRA. 

En el campo de la Estadística el concepto de población se encuentrapróximo a la noción general de grupo o conjunto.

Definición. 

POBLACIÓN.Se llama población o universo a cualquier conjunto, colectivo o

colección finita o infinita de individuos o elementos.

Una población puede ser, no sólo un conjunto de personas, sino también unconjunto de animales, objetos, fenómenos, medidas, .....

Ejemplo:  Si pasamos un test a todos los alumnos españoles de una determinada

edad, los resultados obtenidos constituyen una población de medidas de lacapacidad a la que se derige el test.

Definición. 

CENSO. Se da el nombre de censo a la enumeración y anotación de ciertas

características de todos los elementos de una población.

Ejemplo:  El profesor-tutor de un grupo de un instituto realiza un listado de los

alumnos/as de su tutoría, en la incluye, nombre y apellidos, nombre de los padres,domicilio, teléfono, número de hermanos y asignaturas pendientes del cursoanterior. Este sería un ejemplo de censo de la población formada por el alumnadodel grupo en cuestión.

Las poblaciones en Estadística pueden ser finitas o infinitas. Una poblaciónes finita cuando consta de un número limitado de unidades, y una población esinfinita cuando su tamaño es indefinidamente grande.

Ejemplo: - Si consideramos el número de hermanos que tienen los alumnos/as de

un curso de un instituto determinado, estaríamos hablando de una

Page 9: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 9/176

Estadistica Inferencial

2013

9

población finita. Habría tantos valores como alumnos/as haya en dichocurso.

- Si obtenemos una serie de medidas del tiempo que tarda un alumno enresolver una división de dos cifras, estas medidas pueden consideradasparte de un conjunto mucho mayor, de tamaño indefinidamente grande,

constituido por todas las medidas que obtendríamos si repitiésemos laexperiencia una y otra vez.- Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos

el valor de la cara superior. Tal experiencia puede ser repetidamentehasta el infinito, por lo que cualquier conjunto de resultados podría ser considerado una parte extraída de una población indefinidamentegrande.

En definitiva, con frecuencia, las poblaciones en Estadística suelen ser consideradas infinitas.

El gran tamaño que presentan algunas poblaciones es precisamente laprincipal razón que hace recomendable reducir su estudio a muestras obtenidasde ellas.

Definición. 

MUESTRA. Se define muestra como una parte o subconjunto de una población,

debidamente elegida, que se somete a observación científica enrepresentación de la misma, con el propósito de obtener resultados válidospara el total de la población.

Para que una muestra se considere válida debe cumplir que:

Su tamaño sea proporcional al tamaño de la población. No haya distorsión en la elección de los elementos de la muestra. Sea representativa.

Un estudio exhaustivo cuyos datos se utilizan para multitud detrabajos e investigaciones es el Censo de Población. Requiere un granesfuerzo tanto económico como de medios y en él se recaba información detodos los habitantes de un país. Sin embargo, para el conocimiento dealgunas características de la población, se utilizan métodos alternativos quereducen el costo y el tiempo. Los modelos reducidos de la población,

constituidos por las muestras, tienen como finalidad obtener resultados quepuedan ser aplicables (extrapolables) a la población.

Las principales razones que inducen a tomar muestras son:

a) El coste temporal. Estudiar una población de tamaño considerable exigeuna dedicación de tiempo que retrasaría enormemente lasinvestigaciones en marcha y prolongaría en exceso la realización de los

Page 10: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 10/176

Estadistica Inferencial

2013

10

estudios. A veces, esto último podría entrar además en conflicto con elcarácter vivo, cambiante, en continua evolución de las realidades queocupan el interés de los investigadores en el campo de las cienciassociales, cuyo estudio desde una perspectiva sincrónica, requiere laconcreción en segmentos temporales limitados. Por ejemplo, si

queremos saber cómo ha afectado a la intención de voto de losespañoles determinadas declaraciones de un destacado líder político nodisponemos de un tiempo indefinido, porque otros hechos odeclaraciones posteriores influirían en las opiniones y tendencias de lapoblación. En este caso, sería necesario recurrir a un muestreo quepermita abordar el estudio con un bajo coste temporal.

b) El coste económico. La inversión en recursos temporales y humanosnecesaria para abordar algunos problemas de investigación seríaelevada si pretendiéramos abarcar a la población. La recogida de losdatos que posteriormente van a ser analizados estadísticamenterequiere desplegar estrategias que exigen disponer de recursos. Elenvío de cuestionarios por correo, la realización de entrevistas por partede personas especializadas, el desplazamiento de observadores a loslugares estudiados, etc., suponen un coste económico que quedareducido si nos limitamos al estudio de una muestra extraída de lapoblación.

c) El impacto sobre la realidad estudiada. Cuando el estudio realizadopudiera provocar efectos en los sujetos, parece adecuado limitar larealización de experimentos a ámbitos reducidos. Por ejemplo, lamedición de los resultados de un nuevo método de aprendizaje de lalectura habría de hacerse sobre un número reducido de alumnos, sinextender a toda la población la nueva metodología hasta no confirmar los resultados positivos de la misma.

d) Una población homogénea. Si la población es homogénea se puedenobtener muy buenos resultados a partir de cualquier muestra.

e) La falta de personal. Si no se dispone de suficiente personal preparadopara llevar a cabo un estudio exhaustivo, también resulta aconsejableshacer un muestreo.

Por otro lado, el uso del muestreo presenta limitaciones, entre estasdestacamos:

a) El riesgo que supone la toma de una muestra que pueda no ser representativa.

b) Cuando es necesaria información de todos los elementos de lapoblación.

c) Cuando no se domina bien la técnica de muestreo.d) Cuando la población esté formada por un número muy pequeño de

elementos, ya que una ligera equivocación en la toma de la muestrapuede originar grandes errores.

Page 11: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 11/176

Estadistica Inferencial

2013

11

Para el investigador tienen especial interés las muestras en la medida en que

permiten generalizar los resultados de un estudio a las poblaciones de las que

fueron extraídas. Para que ello sea posible es necesario que el muestreo se

realice siguiendo determinados procedimientos que garanticen la

representatividad de la muestra y, por tanto, las posibilidades de generalización.

1.6.-Teoría de la desición estadística.

Cuando buscamos información acerca de una población, pero sólo disponemos de datos de unamuestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa población. Los conceptos ytécnicas que satisfacen esta necesidad constituyen la Inferencia Estadística.

1. ESTIMACIÓN DE PARÁMETROS

Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a través de unestadístico calculado en la muestra. La inferencia en los distintos niveles de medición se realizará através de P y. 

Un estimador es un procedimiento expresado a manera de fórmula por medio del cuál se obtieneun valor numérico denominado estimación.

1.1. Estimación intervalar

Consta de dos puntos definidores de un intervalo (límites de confianza), que según nuestrasestimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos estimar el parámetro ó P

dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo aun nivel de confianza determinado.El principal objetivo de la estadística inferencial consiste en precisar el valor desconocido de los

parámetros poblacionales a partir de los resultados obtenidos en muestras aleatorias.Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre valores

muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del parámetro poblacional.

Estudiando el estadístico obtenido en la muestra y su error típico podemos determinar por laspropiedades de la curva normal a qué distancia máxima se encontrará el verdadero valor; dichadistancia constituirá el intervalo dentro del cual podemos asegurar que se encuentra el valorpoblacional.

2. LA DISTRIBUCIÓN MUESTRAL

Una distribución muestral es una distribución probabilística teórica de estadísticospertenecientes a muestras, p.e. medias ó proporciones.

Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias simples (cada unade ellas con al menos un elemento diferente) de tamaño N de una misma población, se calcula un estadístico

 por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadísticos alrededor del parámetroque estiman. Ej.: de una nación se coge una muestra de 2000 y se calcula la de edad, si repetimos con todaslas muestras posibles de 2000, obtendremos una distribución muestral de medias de edad.

Page 12: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 12/176

Estadistica Inferencial

2013

12

2.1. El teorema del límite central

Es muy importante en estadística. La suma de gran cantidad de variables aleatorias independientessiempre tiene una distribución aproximadamente normal. La distribución de dicha suma será tanto más

 parecida a la normal cuanto mayor sea el número de variables aleatorias. El teorema central del límite expresacuantitativamente la rapidez de esta convergencia.

Lo que nos dice el teorema es que las medias de las muestras aleatorias simples extraídas de una población que se distribuye normalmente, darán lugar a una distribución muestral que también es normal,aunque N sea pequeño.

1.3. La Ley de los grandes números

Según esta ley la diferencia entre una población dada y una muestra decrece conforme aumenta eltamaño muestral.

A partir de cierto tamaño muestral, el error muestral se hace tan pequeño que un aumento del tamañomuestral no compensaría el incremento de los costos.

La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se utiliza en las pruebas de significación, ello quiere decir que cuando N es suficientemente grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la población, pudiendo aplicar las propiedades dela curva normal, ya que la distribución muestral tiende a aproximarse a la normalidad.

Gracias al teorema del límite central y la ley de los grandes números podemos afirmar que ladistribución de los estimadores en el muestreo será una distribución normal.

3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIÓNMUESTRAL

La tendencia central de una distribución muestral se denomina valor esperado de un estadístico y serepresenta por E().

Si el promedio o valor esperado de un estadístico es el parámetro que estima, entonces se dice que elestadístico es un estimador no sesgado del parámetro. Cualquier diferencia que se produzca entre unestadístico concreto y su parámetro es atribuible por ello más bien a un error aleatorio.

4. DISTRIBUCIONES MUESTRALES DE MEDIAS

La medida de error muestral que indica la magnitud de las desviaciones de los estadísticos sedenomina error típico, para distinguirlo de otras desviaciones típicas.

Según la ley de los grandes números al aumentar la muestra disminuye el error típico, e.d, que alaumentar N los estadísticos se agrupan con mayor proximidad alrededor de sus respectivosparámetros.

PROPIEDADES:

1.  La distribución muestral de medias se aproxima a la curva normal (por el teorema del límitecentral y la ley de los grandes números). En la práctica pensaremos que n 30 para servirnos de las

medidas de la curva normal.2.  Al ser una distribución de frecuencias es posible calcular medidas de tendencia central,variación, etc.

3.  La de una distribución muestral de medias es igual a la verdadera de la población.4.  La es menor que la de la población; esto se debe a que tomamos valores medios,

eliminando los valores extremos.

Podemos decir que entre

  1  68,26%

Page 13: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 13/176

Estadistica Inferencial

2013

13

  2  95,45%  3  99,73%

e.d., entre la más o menos una desviación típica de esa distribución muestral de se encontrarán el68,26% de las medias muestrales de la distribución muestral de medias.

Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan para la

distribución muestral de medias:x -   -  

Z = ------ = Z = --------S  

= media muestral = = media de población o media de medias = desviación típica de la distribución muestral de medias; error típico de la media.

4.1. ERROR TÍPICO DE LA 

El investigador rara vez escoge más de 1 ó 2 muestras, que espera poder generalizar a la población,

 pues el procedimiento de completar una distribución muestral de medias sería tan costoso como analizar acasi todos los miembros de la población. No se tiene pues un conocimiento real de la , pero sí un buen método para estimar la desviación

típica de la distribución muestral de medias sobre la base de datos recogidos en una sola muestra.Con la ayuda del error típico podemos encontrar el rango de valores de la, dentro del cuál es

probable que fluctúe nuestra verdadera poblacional.Cuanto más pequeño sea el error típico, más fiable es el estadístico. La cuantía del error típico depende

del tamaño de la muestra; al aumentar la muestra disminuye el error típico => las muestras grandes engendranestadísticos más fiables que las pequeñas.

A todo estadístico le corresponde una distribución muestral y un error típico.La media de una muestra es una estimación insesgada de la media de la población, e.d., la de la

muestra puede ser mayor ó menor que la de la población. Si se extraen muchas muestras y se promedian susmedias, el resultado tiende a la media de la población al aumntar el tamano de la muestra.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C OD E L A M E D I A * * *

4.2. INTERVALOS DE CONFIANZA

El intervalo de confianza se define como el valor de las puntuaciones directas entre las cuálesafirmamos, a un nivel de confianza dado, que se encuentra el parámetro que consideramos. El intervalode confianza tiene un límite inferior y un límite superior, que son los límites de confianza.

Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y 99,73%, por mediode los cuáles se estima la media poblacional, sabiendo p.e. que hay 95 oportunidades entre 100 de estar en locierto y un 5 de equivocarse, e.d., el nivel de confianza sería la parte de la distribución muestral que yo tomo

 para hacer la estimación.Al realizar una estimación pienso que la media muestral a través de la cuál hago la inferencia caerá en

ese intervalo con un 95% de probabilidades, aunque sé que hay un 5% de que quede fuera.Cuanto más amplio sea el intervalo, tanto menos se acerca a dicho parámetro, e.d., al aumentar el nivel

de confianza se sacrifica también en grado de precisión al señalar la media poblacional.

Estimaciones de la a partir de una sola muestra

Según la adaptación de la distribución muestral de la media a la curva normal, sabemos que con unnivel de confianza de 99% y conociendo la , la verdadera media de la población no se apartará de en másde 2,58 .

Page 14: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 14/176

Estadistica Inferencial

2013

14

(-) 2,58  

Como formulación general de la estimación de parámetros tendremos:

Estimador factor de confiabilidad x error típico del estimador

  Zo 

P ( - Z < < + Z) = Nc ó Ns

  Zo nos dará la distancia máxima entre y . Z depende del nivel de confianza dado.Conociendo el error típico del estadístico en la distribución muestral, el intervalo será el producto del

 Nc por dicho error.

5. DISTRIBUCIÓN T DE STUDENT

Cuando las muestras son pequeñas (n < 30) en la estimación de medias deberemos utilizar ladistribución t de Student, que depende del Ns y de los grados de libertad. El intervalo viene dado por:

  t t = Z

La distribución t correspondiente se asemeja mucho a la distribución normal, y veremos que se aplicauna distribución t de la misma manera en la que se hace con una distribución normal.

Características:

1. Hay una familia de distribución t (una distinta para cada valor de n).2. Cada curva t es simétrica a los dos lados de 0.3. = 0; 2 es algo superior a 14. el punto más alto de la curva viene dado por t = 0.5. Debe calcularse la puntuación t para trabajar con la distribución t:

-  t = --------

 

S = -------

n

6. El área bajo la curva es igual a 1.7. Para la estimación intervalar la fórmula será:

  t P ( - t < < + t) = Nc ó Ns

t = error absoluto; distancia máxima entre y .

Grados de libertad

El número de grados de libertad de un estadístico es denominado generalmente por la letra v. Se definecomo el número de observaciones independientes en la muestra (e.d. el tamaño muestral) menos el nº de H

 parámetros de la población que deben estimarse a partir de las observaciones de la muestra.

Page 15: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 15/176

Estadistica Inferencial

2013

15

v = gl = N - Hv = gl = N-1 (para parámetros)

Tablas de distribución t de Student

Aparecen Ns para 1 ó 2 colas, llamadas pruebas unilaterales o bilaterales. Para estimaciones de parámetros se utilizan pruebas bilaterales. A la izquierda se sitúan gl (df), que son lo grados de libertad.

6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES

La proporción es una frecuencia relativa:

nP = ---

 N

La suma de todas las proporciones es igual a 1; cada proporción es 1. El porcentaje es la proporción* 100. P = población; p = muestras.

 Estimaremos proporciones igual que acabamos de estimar las medias.

Todos los estadísticos, tanto las medias como las proporciones, tienen su propias distribucionesmuestrales; lo dicho para la distribución muestral de medias vale para la distribución muestral de

 proporciones.Muchas veces el investigador busca presentar una estimación de una proporción poblacional con base

en la proporción que obtiene en una muestra aleatoria, p.e. ¿cuál es la proporción de los votos que irán a un partido?

La distribución muestral de proporción 'p' está calculada con base en muestras aleatoriassimples de tamaño 'n', sacadas de una población en la que la proporción poblacional es 'P'. Estádistribuida normalmente si 'n' es grande.

Si extraemos distintas muestras y calculamos su proporción podemos realizar una distribuciónmuestral de proporción.

PROPIEDADES:

1. la media de la distribución muestral de proporción es igual a la proporción poblacional

 p = P 

2. La distribución muestral de proporción es aproximadamente normal si np ó nq > 5.Si p = 0,50 la distribución es aproximadamente normal si n > 30. Pero si P está cercade 0 ó de 1 la distribución muestral de proporción tenderá a tener un extremo máslargo a la izquierda o a la derecha, y deberá aumentar para tener una aproximación a lacurva normal. Al ser una distribución de frecuencias podemos calcular entoncestendencia central, variación, etc.

3. Ps 1  p  68, 26%

Ps 2  p  95,45%Ps 3  p  99,73%

Entre la proporción muestral Ps y 1  p, 2 p y 3  p se encuentran respectivamente el 68,26%, 95,45%y 99,73% de proporción de esta distribución muestral de proporción.

5. Hay que estandarizar las unidades Z:

Ps - P Z = --------

Page 16: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 16/176

Estadistica Inferencial

2013

16

 p 

Ps = proproción muestral; P = proporción poblacionalp = desviación típica de la distribución muestral de proporción.

6.1. ERROR TÍPICO DE LA PROPORCIÓN

Es la desviación típica de esa distribución muestral que nos da la fiabilidad del estadístico. Cuantomenor sea, mejor será la estimación.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C OD E L A P R O P O R C I Ó N * * *

4.2. INTERVALOS DE CONFIANZA

Estimador factor de confiabilidad + error típico del estimador

P Zp

P(Ps - Zp < P < Ps + Zp) = Nc ó NsP (p - Zp < P < p + Zp) = Nc ó NS

Deberán utilizarse en general muestras grandes para la estimación de proporciones, pues sino da unosintervalos excesivamente amplios que poco pueden decirnos como información.

1.7.-Componentes básicos de una investigación estadistica 

ESTIMACIÓN POR INTERVALOS. 

En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor  buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el

estadístico  X  , estimador de . Sabemos que si extraemos muestras de una población en la

que la media es y la varianza 2  , la distribución muestral de  X  tiene como media y

como varianzan X 

22  

  . Si el tamaño n de las muestras es suficientemente grande, la

distribución muestral del estadístico  X  tiende al modelo normal  

  

 

n N 

  , .

Page 17: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 17/176

Estadistica Inferencial

2013

17

ERROR MUESTRAL. 

Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestral

no nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.

Sea  x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media

 x de cada una, se obtiene una distribución normal, llamada distribución muestral de las

medias o distribución de las medias muestrales  X  .

La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,

obteniéndose muchas muestras cuyas medias,  x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definición.

ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica

de la distribución muestral de las medias o de las proporciones.

Recordamos que, para la distribución de las medias muestrales y para la distribución

de las proporciones muestrales, respectivamente:

  Cuando la población es finita y la extracción es con reemplazamiento, o cuandola población es infinita:

n

q p

 pn X 

·,  

    

  Cuando la población es finita y la extracción es sin reemplazamiento:

1··,

1·  N 

n N n

q p p N n N 

n X      

Page 18: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 18/176

Estadistica Inferencial

2013

18

ERROR MÁXIMO ADMISIBLE. 

La distribución muestral de las medias sigue una ley normal  

  

 

n N 

  , y

su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.

Definición.

NIVEL DE CONFIANZA. Se denomina nivel de confianza o coeficiente de confianza a la

 probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .

Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.

Definición.

NIVEL DE SIGNIFICACIÓN.Se denomina nivel de significación o nivel de riesgo a la diferencia entre la

certeza y el nivel de confianza deseado. Por tanto, se expresa por .

Definición. 

ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la

 probabilidad de que la media muestral  x y la media poblacional difieran enmenos de la cantidad “d  ” con el nivel de confianza elegido (1 - ):

Page 19: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 19/176

Estadistica Inferencial

2013

19

   1d  x p  

De lo anterior se deduce:

   1d  xd  p  

O lo que es lo mismo:

   1d  xd  x p  

Si:

6826.0entonces  X  X  X 

x x pd           

9544.022entonces2  X  X  X 

x x pd           

9973.033entonces3  X  X  X 

x x pd           

Es decir: X 

d    para un nivel de confianza del 68.26 %.

 X d   2 para un nivel de confianza del 95.44 %.

 X d   3 para un nivel de confianza del 99.73 %.

1.8.-Recolección de datosTIPOS DE MUESTREO. 

Definición. 

MUESTREO.Se llama muestreo al procedimiento mediante el cual elegimos a las

unidades estadísticas que forman la muestra, dentro del conjunto que constituye la población.

Diremos que el muestreo es probabilístico cuando todos los elementos de la población poseen un probabilidad conocida (o calculada de antemano), no nula, deser elegidos para formar parte de la muestra. Se contrapone al llamado muestreo noprobabilístico, en el que, o bien no se conoce la probabilidad de que los elementosde la población sean seleccionados para la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a cabo inferencias estadísticas.

Lógicamente, el muestreo que se encuentra en la base de la mayoría de los métodosde la Estadística Inferencial es el muestreo probabilístico. Para llevarlo a cabo es necesarioque la selección pueda considerarse como una prueba o experimento aleatorio o de azar, delos que constituyen la base de la teoría de la probabilidad en la cual se fundamenta laestadística matemática.

Page 20: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 20/176

Estadistica Inferencial

2013

20

Las generalizaciones de resultados, a partir del estudio de muestras extraídasmediante procedimientos de muestreo no probabilístico, nos impiden conocer el margen deerror con el que hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite hacer inferencias sobre la población, y gracias a los procedimientosde la Estadística Inferencial podemos conocer el error con el que se realizan las

generalizaciones.En las páginas siguientes, se describen muestreos probabilísticos (muestreo

aleatorio con y sin reposición, muestreo aleatorio sistemático, muestreo estratificado,muestreo por conglomerados, muestreo polietápico) y muestreos no probabilíticos(muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dosconceptos que aparecen al referirnos al muestreo: factor o coeficiente de elevación yfracción de muestreo.

Definiciones. 

FACTOR DE ELEVACIÓN.Se denomina factor o coeficiente de elevación al cociente entre el tamaño

de la población y el tamaño de la muestra,n

 N . Representa el número de elementos

que hay en la población por cada elemento de la muestra.

FRACCIÓN DE MUESTREO. Se denomina fracción de muestreo al cociente entre el tamaño de la

muestra y el tamaño de la población, N 

n. Si se multiplica por 100, representa el

 porcentaje de la población que representa la muestra.

A)  MUESTREOS PROBABILÍSTICOS.

Muestreo aleatorio simple con y sin reposición. Se denomina muestreo aleatoriosimple a aquel en que todos los elementos de la población tienen la misma probabilidad deformar parte de la muestra y ésta es determinada únicamente por el azar. Se trata de un tipode muestreo probabilístico que permite con facilidad llevar a cabo inferencias estadísticas ycalcular la probabilidad de error asociada a las mismas.

Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con osin reemplazamiento de entre los N elementos que componen la población, de tal modo quetodas las muestras de tamaño n que se puedan formar tengan la misma probabilidad de ser elegidas.

Si la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento hasido extraído queda descartado de cara a la siguiente extracción) se habla de muestreoaleatorio sin reposición, también llamado muestreo irrestrictamente aleatorio.

Page 21: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 21/176

Estadistica Inferencial

2013

21

Si la muestra se selecciona con reemplazamiento (es decir, el elemento elegido encada extracción vuelve a ser incluido en la población antes de extraer el siguiente elemento)se habla de muestreo aleatorio con reposición, también llamado generalmente muestreoaleatorio simple.

Si bien los dos métodos son distintos, cuando el tamaño de la población es infinito otan grande que pueda considerarse como infinito, ambos métodos llegan a las mismas

conclusiones. Si la fracción de muestreo N 

nes mayor de 0.1 (se muestrea más del 10 % de

la población) la diferencia entre ambos métodos puede ser apreciable, llegando aconclusiones contradictorias según se aplique un método u otro.

Ejemplo: En el muestreo aleatorio sin reposición, el número de muestras de tamaño n que se

 pueden formar es: 

 

 

 

n

 N , y, por tanto, la probabilidad de elegir una muestra determinada es:

!

!·!1

 N 

nn N 

n

 N  p

 

  

  .

La probabilidad de que un elemento determinado de la población forme parte de la

muestra viene dada por  N 

n p .

En efecto:

n

 N nn N 

nn N  N 

n

 N 

n

 N 

 p

 

  

 

 

  

 

!·!1·!

!·!·!11

1

 posiblescasos

favorablescasos.

En la práctica el procedimiento de muestreo aleatorio consiste en extraer al azar loselementos que constituyen la muestra, obteniendo la muestra unidad a unidad. Para ello, sila población es finita, se enumeran los elementos de la población desde 1 hasta  N , y seextraen a continuación n elementos usando una urna o un bombo. Este procedimiento,aunque sencillo, requiere tener unos medios materiales: un bombo o una urna, papelesnumerados o bolas numeradas, etc., por lo que se suelen utilizar otras alternativas como lastablas de números aleatorios o la generación de números aleatorios con la calculadora.

Las tablas de números aleatorios son tablas de números colocados de tal forma queno exista ninguna relación entre ellos sea cual sea el sentido en que los leamos. Al final delos contenidos teóricos de este tema aparece una tabla de números aleatorios.

Page 22: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 22/176

Estadistica Inferencial

2013

22

Ejemplo:  Si en una población de 834 individuos deseamos extraer una muestra de 42,

asignaríamos un número a cada uno de los 834 elementos de la población. Para determinar los 42 elementos de la muestra, marcaríamos un número en la tabla de números aleatoriosal azar y a partir de éste leeríamos en dicha tabla números de tres dígitos en cualquier 

dirección, desestimando los que superen 834.También podríamos encontrar estos 42 números generando números de forma

aleatoria con la calculadora. Así:-  Con la calculadora Texas Instruments TI-92, utilizando la orden “rand(834)”,

obtendríamos números entre 1 y 834.-  Con la calculadora CASIO  fx-180P, debemos utilizar la sucesión de teclas,

“INV” “(·) RAN”, y descartamos los números que superen 834. 

Muestreo aleatorio sistemático. El muestreo aleatorio sistemático resulta ser un procedimiento más cómodo que el muestreo aleatorio, con o sin reposición, cuando la población o la muestra que vamos a extraer son grandes. En lugar de recurrir a papeletas, bolas, tablas de números aleatorios o calculadora, puede determinarse la muestra eligiendosistemáticamente, en una relación ordenada de los individuos de la población, aquellos quese encuentren a una distancia determinada. Suponiendo que el tamaño de la muestra es  N yque la muestra que queramos extraer constara de n individuos, procederíamos del siguientemodo:

a)  Calculamos el coeficiente de elevación,n

 N k  .

 b)  Elegimos aleatoriamente un número m comprendido entre 1 y k .c)  Determinamos la muestra sumándole repetidamente k  al número, m,

elegido.La muestra estará constituida por los individuos:

k nmk mk mk mm 1........,,3,2,,  

Para que la muestra conserve el carácter aleatorio, debemos procurar que laordenación de los individuos de la población no presente tendencias que hagan recaer laelección sistemática sobre unidades que no sean representativas de la heterogeneidad de la población.

Ejemplo: Supongamos que queremos hacer una investigación en un instituto de 720 alumnos

y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar,ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación.Sin embargo, disponer los alumnos situando una tras otra las listas de los alumnos/as decada clase, en las que estos aparezcan por orden de calificaciones, podría llevar a que seseleccionaran sistemáticamente los alumnos/as con calificaciones altas y no los de lascalificaciones bajas, o viceversa.

Page 23: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 23/176

Estadistica Inferencial

2013

23

Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación

980

720 . Elegimos aleatoriamente un número entre 1 y 9 (tabla de números aleatorios,

calculadora, .....). Si el número obtenido fuese 6, los individuos seleccionados serían:{6, 15 (= 6+9), 24 (= 6+2 · 9), 33 (=6+3 · 9), ........, 717 (=6+79 · 9)}

Evidentemente, k  no suele ser un número entero. Si se desprecian los decimalesocurrirá que una parte de los sujetos que se encuentran al final de la ordenación pierdentoda posibilidad de ser elegidos. Una solución podría consistir en mantener los decimalesdel coeficiente k y redondear el resultado de las sumas al número entero más próximo, unavez que se han realizado todas ellas. Otra sería, sumar alternativamente las cantidades Ent (k ) y Ent (k ) +1.

Además del procedimiento que acabamos de exponer, existen otras formas demuestreo que también se consideran muestreos sistemáticos. Por ejemplo, para elegir unamuestra de personas, podemos seleccionar una o varias letras del abecedario y tomar como

muestra todos los sujetos cuyo apellido comience por esa(s) letra(s).Muestreo estratificado. El muestreo estratificado se realiza cuando queremosgarantizar cierta representatividad de la muestra respecto de alguna característica. Para ello,en función de esa característica, dividimos la población de tamaño  N  en  K  estratos osubpoblaciones de tamaños respectivos  K  N  N  N  N  ........,,,, 321 y elegimos de forma

aleatoria (mediante sorteo, tablas, procedimientos sistemáticos, .....) submuestras detamaños k nnnn ........,,,, 321 en cada estrato, asegurándonos de este modo de que todas

las subpoblaciones estarán representadas en la muestra. La muestra total será la suma de lassubmuestras elegidas en cada estrato, es decir, k nnnnn ........321 .

Cabe diferenciar entre muestreo estratificado con asignación proporcional o deafijación proporcional, muestreo estratificado con asignación constante o de afijación igualy muestreo estratificado con asignación óptima.

En el muestreo estratificado con asignación proporcional, o de afijaciónproporcional, se respeta la importancia cuantitativa de cada estrato, asignando en lamuestra un número de individuos proporcional al tamaño del estrato en la población.

 N 

n

 N 

n

 N 

n

 N 

n

 N 

n

k  ............3

3

2

2

1

1  

En el muestreo estratificado con asignación constante, o de afijación igual,todos los estratos contribuyen a la muestra con idéntico número de individuos, conindependencia de cual sea la importancia numérica de dicho estrato.

Finalmente, se habla de muestreo estratificado con asignación óptima cuando lacontribución de cada estrato se determina a partir de parámetros ya conocidos de la población.

Page 24: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 24/176

Estadistica Inferencial

2013

24

Ejemplo:  Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en el

que hay 500 matriculados, de los que 300 son niños y 200 son niñas, para estimar laestatura media.

  Si se utiliza un muestreo estratificado de afijación igual deberíamos seleccionar 

30 niños y 30 niñas.  Si se utiliza un muestreo estratificado de asignación proporcional deberíamosescoger 36 niños y 24 niñas.

  Si conocemos la variabilidad de la característica considerada, y sabemos que lavarianza en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la proporción de alumnos a alumnas sería de 3 : 1, y usando un muestreoestratificado de asignación óptima, los tamaños de las submuestras deberían ser de 45 niños y 15 niñas.

Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado es el deasignación constante, ya que asigna el mismo tamaño a cada estrato, y como consecuencia se favorece alos estratos de menor tamaño y perjudica a los grandes, en cuanto a la precisión de los resultados que

obtengamos.

Muestreo por conglomerados. El muestreo por conglomerados se utiliza cuandolas unidades de la población presentan alguna forma de agrupamiento, que permite elegir grupos en lugar de individuos. De esta forma, el acceso a la muestra queda facilitadoconsiderablemente, al quedar reunidos en una serie de grupos los individuos que laconstituyen. Al realizar el muestreo, seleccionaríamos aleatoriamente una serie de grupos oconglomerados, tratando de reunir el número total de individuos que pretendemos incluir enla muestra. Los conglomerados deben ser lo más representativos posible de la población, es

decir, deben representar la heterogeneidad de la población del estudio y ser entre síhomogéneos.

Este procedimiento no requiere construir censos o listados completos de loselementos de la población, que son sustituidos en este caso por los censos deconglomerados. En realidad, el muestreo por conglomerados no es más que la aplicación delos muestreos aleatorios con o sin reposición, sistemático o estratificado al caso en que launidad de muestreo no son los individuos sino los grupos de individuos. Usando este procedimiento se evita la dispersión de unidades a la que conducen otros tipos de muestreo,y se reducen los costes y el tiempo de un trabajo de recogida de datos.

Cuando los conglomerados se corresponden con zonas geográficas, y se define elconglomerado como un área o parte bien limitada del terreno, se denomina muestreo poráreas.

Ejemplo: Si queremos hacer un estudio sobre la influencia de un determinado pienso en el

engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y

Page 25: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 25/176

Estadistica Inferencial

2013

25

luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cadagranja o de una muestra representativa de la población de cerdos de la misma.

Muestreo polietápico. En el muestreo polietápico las unidades que finalmente

componen la muestra se determinan en etapas sucesivas. Se trata de un caso particular delmuestreo por conglomerados, en el que la unidad final no son los conglomerados sinosubdivisiones de éstos. Por tanto, será interesante aplicarlo cuando los conglomeradoscontengan un elevado número de individuos y resulte aconsejable hacer una selección entreellos.

Si únicamente desarrollamos dos etapas, muestreo bietápico, el procedimientoconsistiría en la selección de los conglomerados en la primera etapa, y la selección de losindividuos en la segunda.

 No obstante, el muestreo polietápico puede extenderse a más de dos etapas dandolugar a una selección sucesiva de unidades cada vez menores, que están jerarquizadas de talmodo que la unidades de la primera etapa son divisibles en unidades de la segunda etapa,éstas a su vez en unidades de la tercera etapa, y así hasta alcanzar las unidades quefinalmente constituirán la muestra. Estas unidades finales no necesariamente han de ser losindividuos.

En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientosde muestreo aleatorio, sistemático o estratificado.

Ejemplo:  En el ejemplo anterior referido al estudio sobre la influencia de un determinado

 pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de todaEspaña. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una seriede provincias; en segundo lugar, en cada una de las provincias seleccionar tambiénaleatoriamente algunas comarcas (bien delimitadas); posteriormente, dentro de cadacomarca elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar todos los cerdos o una muestra de ellos elegida adecuadamente.

B)  MUESTREOS NO PROBABILÍSTICOS.

Muestreo intencional u opinático. En el muestreo intencional u opinático larepresentatividad depende de la intención u opinión de la persona que selecciona lamuestra, y que, según su criterio, procura que sea representativa. Por tanto, la evaluación dela representatividad es subjetiva. En este caso, la composición de la muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del individuo que laobtiene, y no sólo por factores objetivos que son los que deben tenerse en cuenta de modoriguroso, como ocurre en el muestreo probabilístico.

 Ejemplo:Se pretende hacer una encuesta en un instituto, entre los alumnos de 4º de E.S.O., para saber

la modalidad de Bachillerato que seguirán los que continúen estudiando. El Jefe de Estudios pregunta a

Page 26: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 26/176

Estadistica Inferencial

2013

26

unos cuantos alumnos de cada grupo de 4º de E.S.O., con el único criterio de que piensa que esosseguirán estudiando.

Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de locual su uso está bastante generalizado, especialmente el llamado muestreo por cuotas.

Muestreo por cuotas. En el muestreo por cuotas, el investigador establece estratosde la población, determina el número de individuos a seleccionar en cada uno de ellos yelige intencionadamente individuos para completar las cuotas establecidas. Se asemeja almuestreo por estratos en cuanto que supone un conocimiento previo de la población, que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquel por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cadaestrato no son determinados aleatoriamente, sino en función de otros criterios(accesibilidad, comodidad, economía, etc.). La única condición impuesta es que losindividuos cumplan los requisitos fijados en las cuotas.

Ejemplo:  El agente visitador o entrevistador recoge información de personas o familias en

número proporcional al de las que cumplen determinadas condiciones en la población, y puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos nivelessocioeconómicos. Así, se podría fijar que el 15 % de la muestra ha de constar de mujeresque tengan menos de 40 años, sean de clase media y habiten en determinado barrio, y estasería la única condición para seleccionar este 15 % de la muestra.

El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permitellevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.

Muestreo incidental. En el muestreo incidental el investigador determinadeliberadamente qué individuos formarán parte de la muestra, tratando de recoger a loscasos considerados típicamente representativos de la población. Los criterios de elecciónsuelen basarse generalmente en el conocimiento teórico sobre el tema de estudio. Pero, endefinitiva, a pesar de la posible buena intención y conocimiento del tema y de la poblaciónque tenga el investigador, la muestra no servirá para hacer inferencias a toda la poblaciónya que siempre cabe que pueda estar distorsionada por tendencias o preferenciassubconscientes o inconscientes del investigador.

Ejemplo:  Para estimar el problema de absentismo escolar, un investigador puede seleccionar 

los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que hande desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro residencial, dado que por suconocimiento teórico del problema sabe que éstos representan los diferentes tipos decomportamientos en relación con la asistencia a clase.

Muestreo accidental. En el muestreo accidental, también llamado sin norma,circunstancial o errático, se seleccionan determinados individuos o grupos de individuos

Page 27: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 27/176

Estadistica Inferencial

2013

27

sin que exista ningún criterio aparente. La muestra se toma de cualquier manera, a laaventura, por razones de comodidad o por las circunstancias que rodean al proceso o acapricho. Este tipo de muestreo se considera el más alejado de la posibilidad de generalizar a la población los resultados obtenidos.

Sólo si la población es homogénea la representatividad de la muestra puede ser satisfactoria. A veces la uniformidad puede sustituirse por una buena mezcla antes de tomar muestras, como en el caso de los avisos “agítese antes de usar”, o bien cuando se barajan

los naipes o se hacen girar las bolas dentro de un bombo.

Ejemplo:  Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el

comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a losartículos completos. Por otra parte, influye en la adopción de este procedimiento en estascuestiones de la realidad cotidiana el hecho de que, en caso de equivocación, lasconsecuencias no serían demasiado graves.

Una broma final.El uso de un muestreo no probabilístico podría llevarnos a consecuencias curiosas.

Imaginemos un investigador que hace un estudio sobre la respuesta anímica ante la lluvia.Este investigador está de vacaciones en un complejo turístico de Vera, durante una semanade principios de otoño. Sabe que en Almería la probabilidad de que llueva es mínima.Curiosamente, aparecen las nubes y empieza a llover. Decide aprovechar para recoger unasentrevistas de personas de una zona muy seca en la que llueve. Pero como no tenía previstoque lloviera, no ha traído paraguas, y pregunta a las personas que están en el bar social delcomplejo turístico. Todos se quejan de la lluvia. “En Almería no debería llover”. Le

sorprende la respuesta.... No ha tenido en cuenta que la muestra ha de ser tomadaaleatoriamente. Y, los turistas que vienen a Almería esperan que el Sol forme parte del paisaje como el “desierto” de Tabernas. 

1.9.-Estadistica paramétrica

ESTIMACIÓN POR INTERVALOS. 

En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalo

de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor  buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el

estadístico  X  , estimador de . Sabemos que si extraemos muestras de una población en la

Page 28: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 28/176

Estadistica Inferencial

2013

28

que la media es y la varianza 2  , la distribución muestral de  X  tiene como media y

como varianzan X 

22  

  . Si el tamaño n de las muestras es suficientemente grande, la

distribución muestral del estadístico  X  tiende al modelo normal

 

 

 

 

n

 N  

 , .

ERROR MUESTRAL. 

Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestralno nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.

Sea  x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media

 x de cada una, se obtiene una distribución normal, llamada distribución muestral de las

medias o distribución de las medias muestrales  X  .

La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,

obteniéndose muchas muestras cuyas medias,  x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definición.

ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica

de la distribución muestral de las medias o de las proporciones.

Recordamos que, para la distribución de las medias muestrales y para la distribuciónde las proporciones muestrales, respectivamente:

  Cuando la población es finita y la extracción es con reemplazamiento, o cuando

la población es infinita:

n

q p

 pn X 

·,  

    

  Cuando la población es finita y la extracción es sin reemplazamiento:

Page 29: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 29/176

Estadistica Inferencial

2013

29

·,

 N 

n N 

n

q p

 p N 

n N 

n X  

    

ERROR MÁXIMO ADMISIBLE. 

La distribución muestral de las medias sigue una ley normal  

  

 

n N 

  , y

su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.

Definición.

NIVEL DE CONFIANZA. Se denomina nivel de confianza o coeficiente de confianza a la

 probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .

Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.

Definición.

NIVEL DE SIGNIFICACIÓN.Se denomina nivel de significación o nivel de riesgo a la diferencia entre la

certeza y el nivel de confianza deseado. Por tanto, se expresa por .

Definición. 

Page 30: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 30/176

Estadistica Inferencial

2013

30

ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la

 probabilidad de que la media muestral  x y la media poblacional difieran enmenos de la cantidad “d  ” con el nivel de confianza elegido (1 - ):

   1d  x p  

De lo anterior se deduce:

   1d  xd  p  

O lo que es lo mismo:

   1d  xd  x p  

Si:

6826.0entonces  X  X  X  x x pd            9544.022entonces2

 X  X  X x x pd        

9973.033entonces3  X  X  X 

x x pd           

Es decir:

 X d    para un nivel de confianza del 68.26 %.

 X d   2 para un nivel de confianza del 95.44 %.

 X d   3 para un nivel de confianza del 99.73 %.

En general:        1

 X  X k  xk  x p  

Para una variable tipificada, el valor de k se obtiene así:

  1k  Z k  p    k  Z  pk  Z  pk  Z k  p  

  1121 k  Z  pk  Z  pk  Z  p  

De donde:

21   k  Z  p  

cuyo valor lo podemos obtener en la tabla N (0 , 1) para una valor dado .

Valores de k , más usuales, según el nivel de confianza 1 -  

1 -   50 % 68’2 % 90 % 95 % 95’5 % 99 % 99’7 % 

Page 31: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 31/176

Estadistica Inferencial

2013

31

 K  0.67 1 1.65 1.96 2 2.58 3

En el caso de las proporciones:

  

 

 

  1

··

n

q pk 

n

 f   p

n

q pk 

n

 f   p  

El error máximo admisible “d ” y el error muestral x

  o  p  están relacionados por 

el valor k obtenido a partir del nivel de confianza (1 - ). Así:

Error máximo admisible para la estimación de la media poblacional:

 n

k k d  X 

   ·· (población infinita o finita con reemplazamiento).

 

1

···

 N 

n N 

n

k k d  X 

   (población finita sin reemplazamiento).

Error máximo admisible para la estimación de la proporción poblacional:

 n

q pk k d   p

···    (población infinita o finita con reemplazamiento).

 1

··

··

 N 

n N 

n

q pk k d   p  (población finita sin reemplazamiento).

TAMAÑO DE LA MUESTRA. 

Las encuestas se realizan en una muestra representativa de la población. Su tamañovaría de unas encuestas a otras y viene recogido en la llamada ficha técnica. En dicha fichatécnica debe aparecer: el tamaño de la muestra, el nivel de confianza y el margen de error.El tamaño “n” de la muestra depende del tamaño  N de la población, del nivel de confianza(1 - ) adoptado y del error máximo admisible “d ”. 

DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES:

  Para una población infinita, o finita con reemplazamiento, a partir de laexpresión que relaciona el error máximo admisible o margen de error d y el error 

muestral  p  se tiene:

2

··2···

q pk n

n

q pk 

 pk d     

Cuando no se conoce la proporción “ p”, se estima para el caso más desfavorable, es decir, que tanto “ p” como “q” sean el 50%. 

Page 32: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 32/176

Estadistica Inferencial

2013

32

  Para una población finita y muestreo sin reemplazamiento se tiene, a partir de laexpresión del error máximo admisible:

q pk d  N 

q p N k n

 N 

n N 

n

q pk 

 pk d 

··

22

·1

···2

···

   

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.

  Para poblaciones infinitas o poblaciones finitas con reemplazamiento, laexpresión que relaciona el error máximo admisible d y el error muestral

 x  nos

 permite obtener el tamaño de la muestra:

2

2·2··

k n

nk 

 X k d 

     

  Si la población es finita y el muestreo es sin reemplazamiento, el tamaño sería:

2·21·2

2·2·

1···

 

   

k  N d 

k  N n

 N 

n N 

nk 

 X k d 

 

INTERVALO DE CONFIANZA DE LA MEDIA. 

En una población cuya distribución es conocida, pero con algún parámetrodesconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional    con un

nivel de confianza 1- 

   1)( ba p  

El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor 

real del parámetro estimado  , se elige previamente, siendo un número real comprendidoentre 0 y 1. El valor 1- se expresa en porcentaje.

Page 33: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 33/176

Estadistica Inferencial

2013

33

Sea X una variable aleatoria con distribución ),(    N  y x1, x2, ......, xn, una muestra

aleatoria de tamaño n. La distribución muestral de las medias  X  sigue una ley normal

 

  

 

n N 

  , y la variable tipificada

n

 X  Z 

 

   es una distribución N(0,1).

Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.

1.10.-Aplicaciones de la estadística inferencial

Supongamos que tenemos la estatura, medida en centímetros, de un grupo de diez jóvenes:{170, 172, 180, 175, 178, 194, 178, 165, 170, 178}. La estatura media es de 176centímetros y la desviación típica es (aproximadamente) de 7.5 centímetros. La media y ladesviación típica son valores que describen al conjunto de estaturas, y serían ejemplos de parámetros.

En cambio, en la Estadística Inferencial se estudian conjuntos de puntuaciones, lasmuestras, con el fin de generalizar los resultados a conjuntos de puntuaciones más amplios,las poblaciones, de las que fueron extraídos.

Para ilustrar este concepto, construiremos la distribución muestral del estadístico media,  X , cuando extraemos muestras aleatorias de tamaño 2 en una población constituida por losvalores {1, 2, 3}. La muestra estará formada por los valores de las dos variables aleatorias:

1 x (resultado de la primera selección) y 2

 x (resultado de la segunda elección). A su vez, la

media muestral  X  es también una variable aleatoria, puesto que se obtiene por combinación lineal de las dos variables aleatorias 1 x y 2

 x .

Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:

a)  Procedimiento empírico.- Seleccionamos al azar una muestra con reposición de2 elementos y calculamos su media. Repetimos el proceso hasta un total de 20veces. Los resultados de este proceso podrían ser, por ejemplo:

1 x   1 1 2 2 2 1 2 3 3 1

2 x   2 3 1 3 2 3 1 1 3 1

 x   1.5 2 1.5 2.5 2 2 1.5 2 3 1

1 x   1 2 3 3 2 1 1 3 3 1

2 x   2 3 3 2 1 2 2 2 1 3

 x   1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2

Page 34: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 34/176

Estadistica Inferencial

2013

34

La distribución de frecuencias para los valores de la media obtenidosquedaría tal y como muestra la siguiente tabla:

 x   in   i f    

1 1 0.05

1.5 7 0.352 6 0.30

2.5 4 0.203 2 0.10

Así habremos construido una distribución muestral empírica.

 b)  Procedimiento teórico.- Sin tener que extraer repetidas muestras para calcular lamedia de los valores que las componen, podemos construir una distribuciónmuestral teórica, valiéndonos de conceptos probabilísticos. Así podemosdeterminar las 9 muestras aleatorias posibles con reposición a partir de la

 población considerada y calcular las respectivas medias.

1 x   1 1 1 2 2 2 3 3 3

2 x   1 2 3 1 2 3 1 2 3

 x   1 1.5 2 1.5 2 2.5 2 2.5 3

Teniendo en cuenta las medias de las nueve muestras posibles, todasellas equiprobables, puedo construir la función de probabilidad para la

variable aleatoria  X  .

 x   in   i f    1 1 1/9 = 0.11

1.5 7 2/9 = 0.222 6 3/9 = 0.33

2.5 4 2/9 = 0.223 2 1/9 = 0.11

Conociendo esta distribución muestral teórica, se tiene que la probabilidad de

obtener el valor  1 X  para la media de una muestra extraída al azar de la población es

11'01  X  p , mientras que la probabilidad de obtener el valor  2 X  es 33'02  X  p

. Es decir, en un 11 % de los casos, la muestra tendrá como media 1 y en un 33 % de los

casos, el valor de la media de la muestra será 2.

Como afirmábamos anteriormente, la distribución muestral empírica de unestadístico se aproxima a la distribución muestral teórica a medida que aumenta el númerode muestras extraídas. Las frecuencias relativas obtenidas empíricamente llegan a coincidir con las probabilidades teóricas cuando el número de muestras crece indefinidamente.

Veamos someramente otro ejemplo.

Page 35: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 35/176

Estadistica Inferencial

2013

35

Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (enhoras diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedican alestudio.

Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:a)  El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos

diferentes.

Medias de las muestras de tamaño 2.1 2 3 5

1 1 1.5 2 32 1.5 2 2.5 3.53 2 2.5 3 45 3 3.5 4 5

La información que da la tabla anterior se puede organizar en una tabla dedistribución de frecuencias del siguiente modo:

Distribución de medias muestrales (n = 2)

 x   in  

1 11.5 22 3

2.5 23 3

3.5 24 25 1

Hemos construído la distribución muestral de medias de tamaño 2. Esadistribución, igual que toda distribución, tiene gráfica de una determinada forma,una media, una desviación típica, etc.

 b)  El conjunto de muestras de tamaño 3 de la población P tiene 64 elementosdiferentes. Y procediendo de un modo análogo podemos obtener la siguientetabla:

Distribución de medias muestrales (n = 3)

 x   in  

1 14/3 35/3 62 7

Page 36: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 36/176

Estadistica Inferencial

2013

36

7/3 98/3 93 10

10/3 611/3 6

4 313/3 35 1

Así hemos construido la distribución muestral de medias de tamaño 3.

c)  Igual podemos hacer la distribución muestral de medias de tamaño 4. En estecaso hay 256 muestras diferentes.

Distribución de medias muestrales (n = 4)

 x   in  

1 15/4 46/4 107/4 162 23

9/4 2810/4 3411/4 32

3 3113/4 2414/4 2215/4 12

4 1017/4 418/4 4

5 1T= 256

En resumen, se han construido las tres distribuciones muestrales de medias,

asociadas con la población P. Las características de la población P y de las tresdistribuciones muestrales se exponen a continuación.

Tamaño Media Desviación TípicaPoblación 4 2.75 1.479016Distribución muestral de medias, n = 2 16 2.75 1.045825Distribución muestral de medias, n = 3 64 2.75 0.853912Distribución muestral de medias, n = 4 256 2.75 0.73509

Page 37: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 37/176

Estadistica Inferencial

2013

37

Distribución de la población.

Distribución de las medias de las muestras de tamaño 2.

Distribución de las medias de las muestras de tamaño 3.

Distribución de las medias de las muestras de tamaño 4.

Al observar las gráficas anteriores se comprueba que la gráfica de la población esuniforme y los diagramas de las distribuciones muestrales van aproximándose a la curvanormal a medida que el tamaño de las muestras se aumenta.

También vemos que las medias de las cuatro distribuciones coinciden, y en cambio,

las desviaciones típicas disminuyen a medida que aumenta el tamaño de las muestras.

Veamos como se relacionan la desviación típica de la población con la desviacióntípica de la distribución muestral y con el tamaño de las muestras. Obsérvese que:

479019945.12045825033.1  

Page 38: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 38/176

Estadistica Inferencial

2013

38

479019948.13853912565.0  

479019944.14739509972.0  

Los tres productos dan, prácticamente, el mismo resultado que el valor de ladesviación típica de la población. En realidad, el producto entre la desviación típica de ladistribución muestral de las medias y la raíz cuadrada del tamaño de las muestras es igual ala desviación típica de la población (la inexactitud de los resultados anteriores se debe a lasaproximaciones tomadas).

2.1.-Conceptos básicos.

ESTIMACIÓN POR INTERVALOS. 

En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor  buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el

estadístico  X  , estimador de . Sabemos que si extraemos muestras de una población en la

que la media es y la varianza 2  , la distribución muestral de  X  tiene como media y

como varianzan X 

22  

  . Si el tamaño n de las muestras es suficientemente grande, la

distribución muestral del estadístico  X  tiende al modelo normal  

  

 

n N 

  , .

ERROR MUESTRAL. 

Siempre que tomamos una muestra en representación de toda la población secomete un error. Normalmente existe una diferencia entre los valores obtenidos a partir dela muestra y los correspondientes a la población. Pero cuando hablamos del error muestralno nos referimos al error real que hemos obtenido nosotros, sino a un error determinadoestadísticamente, válido para todas las posibles muestras del mismo tamaño.

Sea  x la media de una muestra de tamaño n y sea la media poblacional de la población de tamaño N . Obteniendo todas las muestras de tamaño n y calculando la media

Page 39: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 39/176

Estadistica Inferencial

2013

39

 x de cada una, se obtiene una distribución normal, llamada distribución muestral de las

medias o distribución de las medias muestrales  X  .

La curva de Gauss representa la distribución de todas las medias de tamaño n obtenidas en la población. La media de las medias coincide con la media de la población,

obteniéndose muchas muestras cuyas medias,  x , son iguales o muy cercanas a y muy pocos casos de medias muestrales, alejadas o muy alejadas de la media proporcional .

Definición.

ERROR MUESTRAL.Se define el error muestral o error de muestreo como la desviación típica

de la distribución muestral de las medias o de las proporciones.

Recordamos que, para la distribución de las medias muestrales y para la distribución

de las proporciones muestrales, respectivamente:

  Cuando la población es finita y la extracción es con reemplazamiento, o cuandola población es infinita:

n

q p

 pn X 

·,  

    

  Cuando la población es finita y la extracción es sin reemplazamiento:

·,

 N 

n N 

n

q p p N 

n N 

n X  

    

ERROR MÁXIMO ADMISIBLE. 

La distribución muestral de las medias sigue una ley normal  

  

 

n N 

  , y

su representación gráfica es la curva de Gauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Gauss y el eje OX, por ser éste una asíntota de lacurva, siendo preciso fijar el área se pretende abarcar. Esta área, (1-), recibe el nombre denivel de confianza porque representa el área que contendrá, probablemente, el valor de lamedia poblacional . Se expresa en tanto por ciento.

Page 40: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 40/176

Estadistica Inferencial

2013

40

Definición.

NIVEL DE CONFIANZA. 

Se denomina nivel de confianza o coeficiente de confianza a la probabilidad de que el estimador por intervalo cubra el verdadero valor del parámetro que se pretende estimar. Se expresa por 1 - .

Estrictamente, establece el porcentaje de muestras (de un tamaño dado) en las que elestadístico que deseamos estimar tiene un valor dentro del intervalo estimado. Un nivel de confianza de90% o del 95% indica que, de toda el área encerrada por la curva de Gauss y el eje OX, probablementeel 90% o el 95% de las veces contendrá a la media poblacional, desestimando el 10% o el 5%,restante.

Definición.

NIVEL DE SIGNIFICACIÓN.

Se denomina nivel de significación o nivel de riesgo a la diferencia entre lacerteza y el nivel de confianza deseado. Por tanto, se expresa por .

Definición. 

ERROR MÁXIMO ADMISIBLE.Se define el error máximo admisible como el valor “d ” que verifica que la

 probabilidad de que la media muestral  x y la media poblacional difieran enmenos de la cantidad “d  ” con el nivel de confianza elegido (1 - ):

   1d  x p  

De lo anterior se deduce:

   1d  xd  p  

O lo que es lo mismo:    1d  xd  x p  

Si:

6826.0entonces  X  X  X 

x x pd           

9544.022entonces2  X  X  X 

x x pd           

9973.033entonces3  X  X  X 

x x pd           

Es decir:

 X d    para un nivel de confianza del 68.26 %.

 X d   2 para un nivel de confianza del 95.44 %.

Page 41: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 41/176

Estadistica Inferencial

2013

41

 X d   3 para un nivel de confianza del 99.73 %.

2.2.-Distribuciones de muestreoDISTRIBUCIÓN DE LAS MEDIAS MUESTRALES.

  Para poblaciones infinitas o poblaciones finitas con reemplazamiento, laexpresión que relaciona el error máximo admisible d y el error muestral

 x  nos

 permite obtener el tamaño de la muestra:

2

2·2··

k n

nk 

 X k d 

     

  Si la población es finita y el muestreo es sin reemplazamiento, el tamaño sería:

2·21·2

2·2·

1···

 

   

k  N d 

k  N n

 N 

n N 

nk 

 X k d 

 

INTERVALO DE CONFIANZA DE LA MEDIA. 

En una población cuya distribución es conocida, pero con algún parámetrodesconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional    con unnivel de confianza 1- 

   1)( ba p  

El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor real del parámetro estimado  , se elige previamente, siendo un número real comprendido

entre 0 y 1. El valor 1- se expresa en porcentaje.

Sea X una variable aleatoria con distribución ),(    N  y x1, x2, ......, xn, una muestra

aleatoria de tamaño n. La distribución muestral de las medias  X  sigue una ley normal

 

  

 

n N 

  , y la variable tipificada

n

 X  Z 

 

   es una distribución N(0,1).

Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.

Page 42: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 42/176

Estadistica Inferencial

2013

42

Gráficamente:

   

 

 

 

 

1

22

 z  Z  z  p  

Sustituyendo:

   

 

 

 

 

 

 

1

22

 z 

n

 X  z  p  

o bien:

   

 

 

 

 

 

 

1

22

 z 

n

 X  z  p  

de donde:

   

   

 

 

 

 

2

·

2n

 z  X n

 z  X  p  

En la práctica no se suelen tomar distintas muestras para calcular el intervalo de

confianza, se toma una sola, de ahí que  x X  .

Page 43: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 43/176

Estadistica Inferencial

2013

43

El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo enuna muestra de tamaño n y mediante una estimación se obtiene un intervalo que cuenta conuna probabilidad del 95%, del 90%, etc., es decir, (1-)% de contener el parámetrodesconocido media poblacional  .

CUANDO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, el intervalo de confianza de la media poblacional   es:

 

 

 

 

n

 z  xn

 z  x 

 

 

 ·

2

2

 

CUANDO NO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, cuando la muestra está formada por 30 o más de 30 individuos uobservaciones, se puede obtener el intervalo de confianza de la media poblacional a partir de la expresión:

 

 

 

 

n

 s z  x

n

 s z  x ·

2

2

   

siendo s la desviación típica de la muestra.

Observaciones. 

Para establecer los intervalos de confianza:

  Cuando no se conoce la desviación típica de la población, siendo rigurosos sedebe usar el parámetro muestral raíz cuadrada de la cuasi varianza, 2

1n s , para

estimar dicha desviación típica poblacional.

Recordamos la expresión de la cuasivarianza:

1

·2

2

1

n

n x x s

ii

n , de donde

se tiene:

1

·2

1

n

n x x s

ii

n , que sería el valor que debería sustituir a la

desviación típica poblacional. No obstante, si 30n se puede utilizar la desviacióntípica muestral.

Page 44: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 44/176

Estadistica Inferencial

2013

44

  En el caso de que el muestreo no sea con reemplazamiento y la población sea

finita, se debe multiplicar el error muestral por el factor 1

 N 

n N , donde N es el

tamaño de la población y n el tamaño de la muestra. Así, el intervalo deconfianza sería:

 

 

 

 

1

··

2

,1

··

2

 N 

n N 

n z  x

 N 

n N 

n z  x

 

 

 

  

INTERVALO DE CONFIANZA DE LA PROPORCIÓN. 

Para estimar la proporción “ p” de elementos que posee una característica de una

 población, lo hacemos mediante una muestra de tamaño n en donden

 f   p ' es la

 proporción de elementos que poseen la característica determinada y q’ = 1 -  p’ la proporción de elementos que no la poseen.

La distribución de las proporciones muestrales se distribuye de acuerdo a una

normal  

  

 

n

 pq p N  , , lo que permite tipificar la variable

n

 pq

 p p Z 

'  que sigue una

distribución N(0,1) y obtener con un nivel de confianza (1-), el intervalo de confianza para el parámetro poblacional p, a partir de la expresión:

   

 

 

 

 

1

2

'

2

 z 

n

 pq

 p p z  p  

o lo que es igual:

   

 

 

 

 

1

2

'

2

 z 

n

 pq

 p p z  p  

de donde:

   

 

 

 

 

2

2

'n

 pq z  p p

n

 pq z  p p  

Page 45: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 45/176

Estadistica Inferencial

2013

45

El error máximo admisiblen

q p z d 

··

2

  , tiene el grave inconveniente de que

está dado en función de  p. Por tanto, una vez extraída la muestra y obtenida la proporciónmuestral p’, debemos estimar los valores de p y q, mediante: p = p’ y q = q’. 

Cuando n es grande, 30n , (y, además, 5·  pn y 5· qn ) para determinar el

intervalo de confianza se puede sustituir el parámetro p por n

 f   p ' de la muestra,

resultando:

     

  

  1

''·'

''·'

22n

q p z  p p

n

q p z  p p  

 Ejemplos: 

-  Supongamos que deseamos valorar el grado medio de conocimientos enhistoria de una población de varios miles de estudiantes. Sabemos que ladesviación típica poblacional es de 2.3 puntos. Nos proponemos estimar lamedia poblacional, , pasando una prueba a 100 alumnos, con un nivel deconfianza del 95 %. Calculamos la media en la muestra, resultando ser de6.32. Para hacer esta estimación vamos a construir el intervalo de confianzade con un nivel de confianza del 95 %.El intervalo de confianza para la media en poblaciones infinitas o finitas

con reemplazamiento, caso que suponemos (de varios miles), es:

 

 

 

 

n

 z  xn

 z  x 

 

 

 ·

2

2

 

En nuestro ejemplo:

Como: 975.0

2

05.01

2

12

 

 

 

 

   z  Z  p , tenemos 96.1

2

  z  , y así:

 

  

 

100

3.2·96.132.6,

100

3.2·96.132.6  

De donde, operando, tenemos el intervalo de confianza buscado:

Page 46: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 46/176

Estadistica Inferencial

2013

46

77.6,87.5  

-  Para estimar la media de los resultados que obtendrían al resolver un ciertotest los alumnos de 4 % de E.S.O. de toda una comunidad autónoma, se lespasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos en

dicha muestra dan una media de 3.25 con una desviación típica de 1.12. Apartir de ellos, pretendemos estimar el valor de la media de la poblacióncon un nivel de confianza del 95 %. En este caso se procedería como en elcaso anterior, sólo que deberemos utilizar el valor de desviación típicamuestral en lugar de la poblacional, cosa que se puede hacer ya que eltamaño de la muestra es superior a 30. En definitiva, el intervalo deconfianza para la media poblacional sería:

 

 

 

 

n

 s z  x

n

 s z  x ·

2

2

   

 

  

 

400

12.1·96.125.3,

400

12.1·96.125.3  

Y así el intervalo buscado es: 36.3,14.3  

-  De la duración de un proceso sabemos que la desviación típica poblacionales 0.5 segundos. ¿Cuál es el número mínimo de medidas que hay que

realizar para que, con un nivel de confianza del 99 %, el error deestimación no exceda de 0. 1 segundos?.

Al nivel de confianza del 99 % ( = 0.01),2

12

    

  

  z  Z  p , corresponde

un 575.22

  z  .

Obtenemos el tamaño n de la muestra a partir de la relación: d n

 z   

  ·

2

,

de donde:

2

2

·

 

 

 

 

 z 

n

  

. Es decir, 76.1651.0

5.0·575.22

 

  

 n y el tamaño

de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).

Page 47: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 47/176

Estadistica Inferencial

2013

47

-  Un monitor de un gimnasio quiere estimar la estatura media de todos losasociados al mismo, con un error menor de 0.5 cm, utilizando una muestrade 30 asociados. Sabiendo que la desviación típica = 5.3 cm, ¿cuál sería elnivel de confianza con el que se realiza la estimación?.

Como, el error d es:n

 z d  

  ·

2

, tenemos:30

3.5·5.0

2

  z  , y de aquí 

deducimos: 52.02

  z  . Ahora bien, 2

152.0 

 Z  p , que nos permite

despejar el coeficiente de significación: 52.01·2 Z  p  , y al

sustituir, 6030.03015.0·26985.01·2   . Y finalmente, el nivel de

confianza, 3970.06030.011   , sería del 39.7 %.

-  Tomada una muestra de 300 personas mayores de 15 años en una granciudad, se encontró que 104 de ellas leían el periódico regularmente. Conestos datos queremos hallar, con un nivel de confianza del 90 %, unintervalo de confianza para la proporción de lectores de periódicos entre losmayores de 15 años.Un nivel de confianza del 90 % nos da un 645.1

2

  z  , y la proporción

muestral obtenida es 347.0

300

104'  p . Así, el error máximo admisible sería

045.0300

653.0·347.0·645.1

'·'·

2

n

q p z d    , y con este dato tenemos

que el intervalo buscado se obtendrá como: 045.0347.0,045.0347.0 , o

lo que es lo mismo el intervalo de confianza es: 392.0,302.0 . O sea, con

un nivel de confianza del 90 %, la proporción de lectores de periódicos, en

el colectivo total, está entre el 30.2 % y el 39.2 %.

-  Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetirla experiencia para conseguir una cota de error de 0.01 con el mismo nivelde confianza del 90 %. ¿Cuántos individuos debe tener la muestra?.

Page 48: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 48/176

Estadistica Inferencial

2013

48

De la expresión del error,n

q p z d 

'·'·

2

  , podemos despejar el tamaño de

la muestra: 6.613101.0

653.0·347.0·645.1'·'·

2

2

2

2

2

q p z 

n

 

. Es decir, la

muestra debe contar con un mínimo de 6132 individuos. Con esta muestra,

se volvería a calcular la proporción muestral de lectores de periódicos  p’’ , y

con ella se determinaría el intervalo de confianza (p ’’- 0.01 , p ’’ + 0.01). 

2.3.-Estimación puntual

La estimación puntual consiste en obtener un único valor del parámetro poblacional a partir de las observaciones muestrales, y se llama así porque se le puede asignar un punto sobre larecta real. Mientras que en la estimación por intervalo se obtienen dos puntos, que definenun intervalo en la recta real que contendrá el valor del parámetro desconocido con ciertaseguridad.

2.4.-Estimación por intervalo. 

ESTIMACIÓN POR INTERVALOS. 

En la estimación por intervalos atribuimos al parámetro desconocido un segmentode posibles valores entre los que se encuentra, con elevada probabilidad, el valor verdaderodel parámetro. Es decir, para estimar el valor del parámetro , podemos ofrecer un intervalode puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor  buscado. Por ejemplo, podríamos determinar que con una probabilidad de 0.90, el valor de se encuentra dentro del intervalo [a , b].

Cuando realizamos una estimación por intervalos resulta imprescindible apoyarse enla distribución muestral de los estadísticos utilizados como estimadores. Por ejemplo el

estadístico  X  , estimador de . Sabemos que si extraemos muestras de una población en la

que la media es y la varianza 2  , la distribución muestral de  X  tiene como media y

como varianzan X 

22  

  . Si el tamaño n de las muestras es suficientemente grande, la

distribución muestral del estadístico  X  tiende al modelo normal  

  

 

n N 

  , .

Page 49: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 49/176

Estadistica Inferencial

2013

49

2.5.-Intervalo de confianza para medias

INTERVALO DE CONFIANZA DE LA MEDIA. 

En una población cuya distribución es conocida, pero con algún parámetro

desconocido, podemos estimar dicho parámetro a partir de una muestra representativa.Estamos trabajando en el caso de la estimación de parámetros mediante un intervalo deconfianza. En este apartado determinaremos el intervalo de confianza para la media.

El intervalo de confianza [a , b] debe contener a la media poblacional    con un

nivel de confianza 1- 

   1)( ba p  

El valor 1- que indica con qué probabilidad el intervalo [a , b] contiene el valor real del parámetro estimado  , se elige previamente, siendo un número real comprendido

entre 0 y 1. El valor 1- se expresa en porcentaje.

Sea X una variable aleatoria con distribución ),(    N  y x1, x2, ......, xn, una muestra

aleatoria de tamaño n. La distribución muestral de las medias  X  sigue una ley normal

 

  

 

n N 

  , y la variable tipificada

n

 X  Z 

 

   es una distribución N(0,1).

Recordemos que si la población no es normal basta con tomar una muestrasuficientemente grande.

Gráficamente:

Page 50: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 50/176

Estadistica Inferencial

2013

50

   

 

 

 

 

1

22

 z  Z  z  p  

Sustituyendo:

   

 

 

 

 

 

 

1

22

 z 

n

 X  z  p  

o bien:

   

 

 

 

 

 

 

1

22

 z 

n

 X  z  p  

de donde:

  

  

 

 

 

 

 

 

2

·

2n

 z  X n

 z  X  p  

En la práctica no se suelen tomar distintas muestras para calcular el intervalo de

confianza, se toma una sola, de ahí que  x X  .

El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo enuna muestra de tamaño n y mediante una estimación se obtiene un intervalo que cuenta conuna probabilidad del 95%, del 90%, etc., es decir, (1-)% de contener el parámetrodesconocido media poblacional  .

CUANDO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, el intervalo de confianza de la media poblacional   es:

 

 

 

 

n

 z  xn

 z  x   

  

·

2

2

 

Page 51: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 51/176

Estadistica Inferencial

2013

51

CUANDO NO SE CONOCE LA DESVIACIÓN TÍPICA POBLACIONAL.

En este caso, cuando la muestra está formada por 30 o más de 30 individuos uobservaciones, se puede obtener el intervalo de confianza de la media poblacional a partir de la expresión:

 

 

 

 

n

 s z  x

n

 s z  x ·

2

2

   

siendo s la desviación típica de la muestra.

Observaciones. 

Para establecer los intervalos de confianza:

  Cuando no se conoce la desviación típica de la población, siendo rigurosos sedebe usar el parámetro muestral raíz cuadrada de la cuasi varianza, 2

1n s , para

estimar dicha desviación típica poblacional.

Recordamos la expresión de la cuasivarianza:

1

·2

2

1

n

n x x s

ii

n, de donde

se tiene:

1

·2

1

n

n x x s

ii

n , que sería el valor que debería sustituir a la

desviación típica poblacional. No obstante, si 30n se puede utilizar la desviacióntípica muestral.  En el caso de que el muestreo no sea con reemplazamiento y la población sea

finita, se debe multiplicar el error muestral por el factor 1

 N 

n N , donde N es el

tamaño de la población y n el tamaño de la muestra. Así, el intervalo deconfianza sería:

 

 

 

 

1

··

2

,

1

··

2 N 

n N 

n

 z  x

 N 

n N 

n

 z  x 

 

 

 

 

Page 52: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 52/176

Estadistica Inferencial

2013

52

2.6.-Intervalo de confianza para diferencia entre medias

En vez de estimar el  valor de un parámetro, a veces se debe decidir si una afirmación relativa a un parámetro es verdadera o

falsa. Es decir, probar una hipótesis relativa a un parámetro. Se realiza una prueba de hipótesis cuando se desea probar una

afirmación realizada acerca de un parámetro o parámetros de una población. 

Una hipótesis es un enunciado acerca del valor de un parámetro (media, proporción, etc.).

 Prueba de Hipótesis es un procedimiento  basado en evidencia muestral (estadístico) y en

la teoríade probabilidad (distribución muestral del estadístico) para determinar si una hipótesis es razonable y no debe

rechazarse, o si es irrazonable y debe ser rechazada.

La hipótesis de que el parámetro de la población es igual a un valor determinado se conoce como hipótesis nula. Una

hipótesis nula es siempre una de status quo o de no diferencia.

En toda prueba de hipótesis se presentan 3 casos de zonas críticas o llamadas también zonas de rechazo de la hipótesis nula,estos casos son los siguientes:

Page 53: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 53/176

Estadistica Inferencial

2013

53

En toda prueba de hipótesis se pueden cometer 2 tipos de errores:

Prueba medias de una muestra

Se utiliza una prueba de una muestra para probar una afirmación con respecto a una media de una población única.

Page 54: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 54/176

Estadistica Inferencial

2013

54

Nota: Se considera práctico utilizar la distribución t solamente cuando se requiera que el tamaño de la muestra sea menor de

30, ya que para muestras más grandes los valores t y z son aproximadamente iguales, y es posible emplear la distribución

normal en lugar de la distribución t.

Ejemplos ilustrativos: 

1) La duración media de una muestra de 300 focos producidos por una compañía resulta ser de 1620 horas.

Page 55: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 55/176

Estadistica Inferencial

2013

55

Como se tiene como dato el tamaño de la población se tiene que verificar si cumple con la condición para utilizar el factor

finito de corrección.

Page 57: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 57/176

Estadistica Inferencial

2013

57

2) La duración media de lámparas producidas por una compañía han sido en el pasado de 1120 horas. Una muestra de 8

lámparas de la producciónactual dio una duración media de 1070 horas con una desviación típica de 125 horas.

2.7.-Intervalo de confianza de proporciones

INTERVALO DE CONFIANZA DE LA PROPORCIÓN. 

Para estimar la proporción “ p” de elementos que posee una característica de una

 población, lo hacemos mediante una muestra de tamaño n en donden

 f   p ' es la

 proporción de elementos que poseen la característica determinada y q’ = 1 -  p’ la proporción de elementos que no la poseen.

La distribución de las proporciones muestrales se distribuye de acuerdo a una

normal 

 

 

 

n

 pq p N  , , lo que permite tipificar la variable

n

 pq

 p p Z 

'  que sigue una

distribución N(0,1) y obtener con un nivel de confianza (1-), el intervalo de confianza para el parámetro poblacional p, a partir de la expresión:

Page 58: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 58/176

Estadistica Inferencial

2013

58

   

 

 

 

 

1

2

'

2

 z 

n

 pq

 p p z  p  

o lo que es igual:

   

 

 

 

 

1

2

'

2

 z 

n

 pq

 p p z  p  

de donde:

 

  

 

 

 

 

2

2

'

n

 pq z  p p

n

 pq z  p p  

El error máximo admisiblen

q p z d 

··

2

  , tiene el grave inconveniente de que

está dado en función de  p. Por tanto, una vez extraída la muestra y obtenida la proporciónmuestral p’, debemos estimar los valores de p y q, mediante: p = p’ y q = q’. 

Cuando n es grande, 30n , (y, además, 5·  pn y 5· qn ) para determinar el

intervalo de confianza se puede sustituir el parámetro p por  n

 f   p ' de la muestra,

resultando:

     

  

  1

''·'

''·'

22n

q p z  p p

n

q p z  p p  

 Ejemplos: 

-  Supongamos que deseamos valorar el grado medio de conocimientos enhistoria de una población de varios miles de estudiantes. Sabemos que la

desviación típica poblacional es de 2.3 puntos. Nos proponemos estimar lamedia poblacional, , pasando una prueba a 100 alumnos, con un nivel deconfianza del 95 %. Calculamos la media en la muestra, resultando ser de6.32. Para hacer esta estimación vamos a construir el intervalo de confianzade con un nivel de confianza del 95 %.El intervalo de confianza para la media en poblaciones infinitas o finitas

con reemplazamiento, caso que suponemos (de varios miles), es:

Page 59: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 59/176

Estadistica Inferencial

2013

59

 

 

 

 

n

 z  xn

 z  x 

 

 

 ·

2

2

 

En nuestro ejemplo:

Como: 975.02

05.01

21

2

 

  

 

   z  Z  p , tenemos 96.1

2

  z  , y así:

 

  

 

100

3.2·96.132.6,

100

3.2·96.132.6  

De donde, operando, tenemos el intervalo de confianza buscado:

77.6,87.5  

-  Para estimar la media de los resultados que obtendrían al resolver un ciertotest los alumnos de 4 % de E.S.O. de toda una comunidad autónoma, se lespasa dicho test a 400 de ellos escogidos al azar. Los resultados obtenidos endicha muestra dan una media de 3.25 con una desviación típica de 1.12. Apartir de ellos, pretendemos estimar el valor de la media de la poblacióncon un nivel de confianza del 95 %. En este caso se procedería como en el

caso anterior, sólo que deberemos utilizar el valor de desviación típicamuestral en lugar de la poblacional, cosa que se puede hacer ya que eltamaño de la muestra es superior a 30. En definitiva, el intervalo deconfianza para la media poblacional sería:

 

 

 

 

n

 s z  x

n

 s z  x ·

2

2

   

 

 

 

 

400

12.1

·96.125.3,400

12.1

·96.125.3  

Y así el intervalo buscado es: 36.3,14.3  

-  De la duración de un proceso sabemos que la desviación típica poblacionales 0.5 segundos. ¿Cuál es el número mínimo de medidas que hay que

Page 60: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 60/176

Estadistica Inferencial

2013

60

realizar para que, con un nivel de confianza del 99 %, el error deestimación no exceda de 0. 1 segundos?.

Al nivel de confianza del 99 % ( = 0.01),2

12

    

  

  z  Z  p , corresponde

un 575.22

  z  .

Obtenemos el tamaño n de la muestra a partir de la relación: d n

 z   

  ·

2

,

de donde:

2

2

·

 

 

 

 

 z 

n

  

. Es decir, 76.1651.0

5.0·575.22

 

  

 n y el tamaño

de la muestra debe ser 166 medidas (el menor entero mayor que 165.76).

-  Un monitor de un gimnasio quiere estimar la estatura media de todos losasociados al mismo, con un error menor de 0.5 cm, utilizando una muestrade 30 asociados. Sabiendo que la desviación típica = 5.3 cm, ¿cuál sería elnivel de confianza con el que se realiza la estimación?.

Como, el error d es:n

 z d  

  ·

2

, tenemos:30

3.5·5.0

2

  z  , y de aquí 

deducimos: 52.02

  z  . Ahora bien, 2

152.0 

 Z  p , que nos permite

despejar el coeficiente de significación: 52.01·2 Z  p  , y al

sustituir, 6030.03015.0·26985.01·2   . Y finalmente, el nivel de

confianza, 3970.06030.011   , sería del 39.7 %.

-  Tomada una muestra de 300 personas mayores de 15 años en una granciudad, se encontró que 104 de ellas leían el periódico regularmente. Conestos datos queremos hallar, con un nivel de confianza del 90 %, unintervalo de confianza para la proporción de lectores de periódicos entre losmayores de 15 años.

Page 61: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 61/176

Estadistica Inferencial

2013

61

Un nivel de confianza del 90 % nos da un 645.12

  z  , y la proporción

muestral obtenida es 347.0300

104'  p . Así, el error máximo admisible sería

045.0300

653.0·347.0·645.1

'·'·

2

n

q p z d    , y con este dato tenemos

que el intervalo buscado se obtendrá como: 045.0347.0,045.0347.0 , o

lo que es lo mismo el intervalo de confianza es: 392.0,302.0 . O sea, con

un nivel de confianza del 90 %, la proporción de lectores de periódicos, en

el colectivo total, está entre el 30.2 % y el 39.2 %.

-  Teniendo en cuenta los resultados del ejemplo anterior, se pretende repetirla experiencia para conseguir una cota de error de 0.01 con el mismo nivelde confianza del 90 %. ¿Cuántos individuos debe tener la muestra?.

De la expresión del error,n

q p z d 

'·'·

2

  , podemos despejar el tamaño de

la muestra: 6.613101.0

653.0·347.0·645.1'·'·

2

2

2

2

2

q p z 

n

 

. Es decir, la

muestra debe contar con un mínimo de 6132 individuos. Con esta muestra,

se volvería a calcular la proporción muestral de lectores de periódicos  p’’ , y

con ella se determinaría el intervalo de confianza (p ’’- 0.01 , p ’’ + 0.01). 

Page 62: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 62/176

Estadistica Inferencial

2013

62

2.8.-Intervalo de confianza para diferencia de proporciones.

INTERVALOS DE CONFIANZA

INTRODUCCIÓN

Para indicar el estudio de este tema es necesario recordar algunos aspectos de las funciones:a. Si 2

2

2

1 sys son las varianzas de las variables aleatorias independientes de tamaños n1 y

n2 que se sacan de poblaciones normales con varianzas 2

2

2

1 y , respectivamente,entonces,

2

2

2

2

2

1

2

1

s

sF

 

tiene distribución F con n1-1 y n2-1 grados de libertad

 b. Si U y V son variables aleatorias independientes que tienen distribuciones 2 con 1 y 2 grados de libertad, respectivamente. Entonces, la distribución de la variable

2

1

V

UF

 

tiene distribución F con 1 y 2 grados de libertad

Ejemplo. El valor de f con 6 y 10 grados de libertad y un área de 0.95 a la derecha es,f 0.95,6,10=0.246Así mismo,1/(f 1-0.05,10,6)=0.246

c. Si se escribe f 1,2 para fa con 1 y 2 grados de libertad, se obtiene,f 1-1,2=1/(f 2,1)

Ejemplo, El valor de t con n=14 grados de libertad que tienen un área de 0.025 a laizquierda, y por tanto, un área de 0.975 a la izquierda, est0.975= - t0.025=-2.145

d. Sea Z la variable aleatoria normal estándar y V una variable aleatoria Chi Cuadrada con grados de libertad. Si Z y V son independientes, entonces, la distribución de lavariable aleatoria T es t-Student con -1 grado de libertad

V

ZT  

d. Si S2 es la variable aleatoria de tamaño n tomada de una población normal que tiene lavarianza 2, entonces, el estadístico

2

22 s)1n(

X

 

Page 63: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 63/176

Estadistica Inferencial

2013

63

tiene distribución 2 con n-1 grado de libertad

Ejemplo. Un fabricante de autos garantiza que sus baterías durarán en promedio 3 años conuna desviación estándar de 1 año. Si 5 de estas baterías se muestrean y se encuentran quetienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años. Se puede garantizar que la desviación

estándar es de 1 año?Calculando la desviación típica tenemos,

815.04*5

)15(26.48*5s

22

 

Entonces,

26.31

815.0*42  

Es un valor de la distribución Chi Cuadrado con 4 grados de libertad. Dado que el 95% deestos valores de 2

4 cae entre 0.484 y 11.143, el valor calculado con 2=1 es razonable, y

 por tanto, el fabricante no puede dudar que su desviación típica sea diferente de 1

ESTIMACIÓN DE TAMAÑO MUESTRAL E INTERVALOS 

Dada una variable aleatoria de distribución gaussiana, X~N(2), nos interesamos en primer lugar, en calcular intervalos de confianza para sus dos parámetros, y .

Intervalo para la media si se conoce la varianza: Este no es un caso práctico (no se puede conocer  sinconocer previamente ), pero sirve para introducirnos en el problema de la estimación confidencial de lamedia;

Intervalos de confianza para la media (caso general): Este se trata del caso con verdadero interés práctico.Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una población, laaltura, el peso, etc, cuando disponemos de una muestra de la variable.

Intervalo de confianza para la varianza: Éste es otro caso de interés en las aplicaciones. El objetivo escalcular un intervalo de confianza para 2, cuando sólo se dispone de una muestra.

La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra para obtener intervalos deconfianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible esnecesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto. Los

 problemas asociados a este caso son

Diferencia de medias homocedáticas: Se realiza el cálculo del intervalo de confianza suponiendo que ambasvariables tienen la misma varianza, es decir son homocedáticas. En la práctica se usa este cálculo, cuando

ambas variables tienen parecida dispersión.

Diferencia de medias (caso general): Es el mismo caso que el anterior, pero se realiza cuando se observaque hay diferencia notable en la dispersión de ambas variables.

Page 64: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 64/176

Estadistica Inferencial

2013

64

INTERVALO PARA EL VALOR MEDIO SI SE CONOCE LA VARIANZA

Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a poder conocer con exactitud s mientras que m es desconocido. Sin embargo nos aproxima delmodo más simple a la estimación confidencial de medias. Para estimar m, el estadístico que

mejor nos va a ayudar es X , del que conocemos su ley de distribución, que es el parámetrodesconocido,

 

  

 

n, NX

2

 

Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la leyde distribución no dependa de ningún parámetro desconocido, para ello tipificamos:

n

XZ

que se distribuye N(0,1)

Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la queintervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según unaley de probabilidad que es bien conocida y a ser posible tabulada.

De este modo, fijado )1,0( , consideramos la variable aleatoria Z~N(0,1) y tomamos un

intervalo que contenga una masa de probabilidad de 1-. Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media(0), ya que allí es donde se acumula más masa. Así las dos colas de la distribución (zonasmás alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad,.

Intervalo para la media (caso general). Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamosconocer si se distribuye normalmente, pero el valor exacto de los parámetros y no sonconocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos. El problemaque tenemos en este caso es más complicado que el anterior, pues no es tan sencilloeliminar los dos parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:

n

XZ

~N(0,1)

Page 65: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 65/176

Estadistica Inferencial

2013

65

Por el teorema de Cochran sabemos por otro lado que:

n

1i

2

1n2

2

i2

1n

)XX( 

y que además estas dos últimas distribuciones son independientes. A partir de estasrelaciones podemos construir una distribución t-Student con n-1 grados de libertad.

La distribución tn es algo diferente a N(0,1) cuando n es pequeño, pero conforme ésteaumenta, ambas distribuciones se aproximan.

Y también sabemos que,1n1n t

ns

XT

 

Dado el nivel de significación 1-a buscamos en una tabla de t-Student tn-1 el percentil 100(1-/2) tn-1,1-/2, elcual deja por encima de si la cantidad /2 de la masa de probabilidad. Luego la distribución t-Student tiene lasmismas propiedades de simetría que la normal tipificada.

1tTP

2/)tT(P

2/)tT(P1n,2/11n

1n,2/11n

1n,2/11n 

El intervalo de confianza es,

1n,2/11n,2/11n tn/s

xtT

 

es decir, el intervalo de confianza al nivel 1- para la esperanza de una distribucióngaussiana cuando sus parámetros son desconocidos es:

n

stx 1n,2/1  

Al igual que en el caso del cálculo del intervalo de confianza para cuando es conocido, podemos en el caso desconocido, utilizar la función de verosimilitud para representarlogeométricamente.

n

stxxy

n

stxx 1n,2/12/1n,2/12/  

Page 66: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 66/176

Estadistica Inferencial

2013

66

Ejemplo. Se quiere estimar un intervalo de confianza al nivel de significación =5% parala altura media de los individuos de una ciudad. En principio sólo sabemos que ladistribución de las alturas es una variable aleatoria  X de distribución normal. Para ello setoma una muestra de n=25 personas y se obtiene, 10s170x  

Solución: En primer lugar, en estadística inferencial, los estadísticos para medir ladispersión más conveniente son los insesgados. Por ello vamos a dejar de lado la desviacióntípica muestral, para utilizar la cuasidesviación típica:

206.10242510)1n(nss  

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadísticoT y tomar como intervalo de confianza,

1n,2/11n tTtn/s

xT

 

es decir,

204.174

796.165

5

206.10*06.217006.2t

25/206.10

17024,975.0  

2.9.-Intervalo de confianza para varianzas

Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la

siguiente propiedad de la distribución  :

Consideremos dos cuantiles de esta distribución que nos dejen una

 probabilidad en la ``zona central'' de la distribución (cf. figura 8.7):

Page 67: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 67/176

Estadistica Inferencial

2013

67

Figura: Cuantiles de la distribución . 

Entonces un intervalo de confianza al nivel para la varianza de unadistribución gaussiana (cuyos parámetros desconocemos) lo obtenemos teniendo

en cuenta que existe una probabilidad de que:

Page 68: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 68/176

Estadistica Inferencial

2013

68

Por tanto el intervalo que buscamos es

8.4.6.1 Ejemplo 

En un ejemplo anterior  se estudiaba la altura de los individuos de una ciudad,obteniéndose en una muestra de tamaño 25 los siguientes valores:

Calcular un intervalo de confianza con para la varianza de la alturade los individuos de la ciudad.

Solución: 

Para estimar un intervalo de confianza para (varianza poblacional) elestadístico que nos resulta útil es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.figura 8.8) 

Figura: Percentiles del 2,5% y del 97,5% para la

distribución . 

Page 69: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 69/176

Estadistica Inferencial

2013

69

Por tanto, para el valor poblacional de la desviación típica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones

 puntuales y calculados sobre la muestra.

Page 70: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 70/176

Estadistica Inferencial

2013

70

2.10.-Intervalo de confianza para razones de dos varianzas

NTERVALO DE CONFIANZA Y CONTRASTEDE HIPÓTESIS PARA LA RAZÓN DE

VARIANZAS 

Cuando se desea hacer inferencias acerca de las varianzas de dos poblaciones, es necesariocolocarlas en forma de razón. Si las varianzas son iguales, entonces el cociente es igual a 1, encaso de que sean diferentes, su cociente también se alejará de 1. Como por lo general no seconocen las varianzas de las poblaciones de interés, cualquier comparación que se desee, tendrá

que estar basada en las varianzas muestrales y , las cuales deberán ser de muestrasindependientes y extraídas de poblaciones normales. 

Entonces, es un estimador insesgado de y tendrá una distribucióncon n1  1 grados de libertad. 

De manera similar será un estimador de y tendrá una distribucióncon n2  1 grados de libertad. 

La razón de estos dos estimadores: sigue una distribución F de Fisher, osimplemente distribución F que posee las siguientes propiedades: 1.  La distribución F depende de dos valores de grados de libertad, uno correspondiente al

numerador y otro al denominador, a los cuales nos referiremos como grados de libertad del 

numerador (gl num=  1 = n1  – 1) y grados de libertad del denominador (gl den=  2 = n2  – 1). 2.  La densidad de la variable F viene dada por: 

3.  La distribución F para cada par de valores de grados de libertad  1 y  2. 4.  Hay una distribución F para cada par de valores de grados de libertad. 

5.  Como la distribución , una distribución F es positivamente asimétrica, pero su asimetría sereduce con los aumentos de los grados de libertad. 

Page 71: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 71/176

Estadistica Inferencial

2013

71

6.  Si X tiene densidad , entonces tendrá una distribución , esto es 

7.  La distribución muestral usada para hacer inferencias entre dosvarianzas es la F de Fisher: 

con n1  1 y n2  1 grados de libertad en el numerador y denominador,respectivamente. 

El intervalo de confianza para el cociente de varianzas está dado por: 

Despejando se tiene: 

NOTA: El valor de cola izquierda de la distribución F de Fisher está dado por: 

, donde  1 = n1  1 y  2  = n2  1 

Ejemplo 14 : Las siguientes son las calificaciones obtenidas en un examen de personalidad por 2muestras de 9 mujeres casadas y 9 mujeres solteras: 

Solteras  88  68  77  82  63  80  78  71  72 Casadas  73  77  67  74  74  64  71  71  72 

Suponiendo que estos datos se pueden considerar como muestras aleatorias independientes

tomadas de dos poblaciones normales, pruebe la hipótesis de que la varianza de las calificacionesde las mujeres solteras es diferente de la varianza de las calificaciones de las mujeres casadascon  = 0.05. 

1) Se supone que las muestras son aleatorias independientes yextraídas de poblaciones normalmente distribuidas. 

Page 72: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 72/176

Estadistica Inferencial

2013

72

2) H 0 : 

H a:

3)  = 0.05 

4) Estadístico de contraste

5) Valores críticos: , (tabla T-7) 

6) Valor calculado de F c = 3.8636 ya que

7) Como 0.23 < 3.8636 < 4.43, No se rechaza H 0. 

8) Las varianzas de las calificaciones de las solteras y de las casadasno son significativamente diferentes. 

Ejemplo 15 : La variabilidad de la cantidad de impurezas presentes en un compuesto químicousado para un proceso particular depende del tiempo en que el proceso está en operación. Unfabricante que usa las líneas de producción 1 y 2 ha introducido un ligero ajuste al proceso 2 con laesperanza de reducir tanto la variabilidad como la media de la cantidad de impurezas en elcompuesto químico. Las medias y varianzas de las muestras de 25 observaciones de los dosprocesos son: 

Determine el intervalo de confianza del 90% para el cociente de varianzas. 

Solución : Sustituyendo en la fórmula los datos, se tiene 

Page 73: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 73/176

Estadistica Inferencial

2013

73

con una confianza del 90%. Como ambos límites son mayores que 1 se puede concluir que la varianza 1 es significativamentemayor que la varianza 2. 

Ejemplo 16 : Existe un proceso industrial A para obtener el aceite esencial de cierto fruto. Un grupode ingenieros mexicanos ha desarrollado un método B para el mismo fin, pero con costos deproducción y mantenimiento menores. Se hizo un estudio para comparar el porcentaje de purezadel aceite esencial obtenido por ambos métodos, en lotes similares de fruto asignadoscompletamente al azar y se recopiló la siguiente información: 

% de pureza del aceite esencial Método A  82  80  83  85  79  82  81  84 Método B  80  79  82  82  81  80  79  78  83 

En un inicio, por consideraciones teóricas, se pensaba que ambos procesos tendrían la mismavariabilidad, pero de acuerdo con algunos resultados preliminares se cree ahora que el método Bproduce resultados menos variables. Con los datos de la tabla, ¿cuál es su conclusión con =0.05? 

Solución:  1.  Se ve claramente que los dos procesos son independientes y no hay razón para dudar de que

el % de pureza se distribuya normalmente para ambos procesos como se puede observar enlos diagramas de tallo y hoja respectivos 

Método A  Método B 1  79  0  1  78  0 2  80  0  3  79  00 3  81  0  (2)  80  00 

(2)  82  00  4  81  0 3  83  0  3  82  00 2  84  0  1  83  0 1  85  0 

820 significa 82 

2.  La hipótesis que se plantea es unilateral: 

H 0 : 

H a:

3.   = 0.05 

Page 74: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 74/176

Estadistica Inferencial

2013

74

4.  Estadístico de contraste

3.1.-Metodología de la prueba de hipótesis.

Prueba de hipótesisEstadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros.

Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisiónacerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesisestadística se denota por “H” y son dos:

- Ho: hipótesis nula

- H1: hipótesis alternativa

Partes de una hipótesis

1-La hipótesis nula “Ho” 

2-La hipótesis alternativa “H1” 

3-El estadístico de prueba

4-Errores tipo I y II

5-La región de rechazo (crítica)

6-La toma de decisión

CONCEPTO 

Afirmación acerca de los parámetros de la población. 

Etapas Básicas en Pruebas de Hipótesis. 

Al realizar pruebas de hipótesis, se parte de un valor  supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con unasupuesta media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotéticosólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. 

Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con elresultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nulasolamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 1.05 o menos.

Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetroque se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una mediapoblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en unvalor z el cual, a su vez, sirve como estadística de prueba.

Consecuencias de las Decisiones en Pruebas de Hipótesis. 

Decisiones Posibles Situaciones Posibles

La hipótesis nula es verdadera La hipótesisnula es falsa

 Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II

Rechazar la Hipótesis Nula Error tipo I Se rechaza correctamente

Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia yla estadística de prueba que se van a util izar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno omás de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.

Page 75: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 75/176

Estadistica Inferencial

2013

75

Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma unamuestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma lamedia muestral en un valor de z.

Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística deprueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efectosobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál dedos estrategias demercadotecnia utilizar.

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba

estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso f uncionacorrectamente.

 Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región delrechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de laregión de rechazo.

PASOS DE LA PRUEBA DE HIPÓTESIS 

1. Expresar la hipótesis nula2.3. Expresar la hipótesis alternativa4. Especificar el nivel de significancía5. Determinar el tamaño de la muestra6. Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.7. Determinar la prueba estadística.8. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.9. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.10. Determinar la decisión estadística.

11. Expresar la decisión estadística en términos del problema.

CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBAS DE HIPÓTESIS. 

Hipótesis Estadística: 

 Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada.

Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas. 

Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

3.2.-Hipotesis Nula Y Alternativa

Hipótesis Nula. 

En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir siuna moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).

 Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (osea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en e l muestreo de la misma población). Tales hipótesis sesuelen llamar hipótesis nula y se denotan por Ho.

Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una hipótesis nula.

La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos.

Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstosserán mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, ytambién al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibiráentrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación entre elgrupo de jóvenes que recibió el entrenamiento y el que no lo recibió.

Una hipótesis nula es importante por varias razones:

Es una hipótesis que se acepta o se rechaza según el resultado de la investigación. 

El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y sino se debió al azar.

No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos quela información a obtener es contraria a la hipótesis de trabajo. 

 Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen delproblema fluctúa, por tanto, debe rechazarse como tal.

Otro ejemplo:

Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.

Hipótesis Alternativa. 

Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativapodrían ser p = 0,7, p " 0,5 ó p > 0,5.

Una hipótesis alternativa a la hipótesis nula se denotará por H1.

Page 76: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 76/176

Estadistica Inferencial

2013

76

   Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan variables independientes distintas de lasprimeras que formulamos. Por tanto, para no perder  tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas comorespuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su comprobación.

Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté realizando. En los estudios exploratorios, a veces,el objetivo de la investigación podrá ser simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis. Tambiénes aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que "existe algún tipo de problema social en tal grupo", oque los planetas poseen algún tipo de atmósfera, sin especificar de qué elementos está compuesto.

Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo " todos los X poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las relacionescomerciales entre ellas. También podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando decimos queuna tecnología escapital - intensiva. En estos casos, describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo idealcomplejo de orden superior.

Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde estaremos en presencia de una relación ent re variables.

3.3.-Error tipo I y Error Tipo IIErrores de tipo I y de tipo II.  

Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I.

Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II.

En ambos casos, se ha producido un juicio erróneo.

Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de ladecisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir 

acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse uncompromiso que disminuya el error más grave.

La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible.

Niveles de Significación. 

 Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuesto a correr el riesgo de cometerán error de tipo I, sellama nivel de significación.

Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyanen nuestra elección.

En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel designificación 0,05 (ó 5%) al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesiscuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimosque la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabili dad 0,05 de ser falsa.

3.4.-Pruebas de Hipótesis para Z para la media y la desviaciónestándar poblacional

Prueba de Uno y Dos Extremos. 

Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste deuna y dos colas.

Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de la media (o sea, en uno de los extremos de ladistribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar siun proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la región crítica es unaregión situada a un lado de la distribución, con área igual al nivel de significación.

Curva Característica Operativa Y Curva De Potencia 

Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el error tipo IIsimplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En tales casos, se suele recurrir acurvas características de operación o curvas de potencia que son gráficos que muestran las probabilidades de error de tipo II bajo diversashipótesis. Proporcionan indicaciones de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicarán la

potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre otras cosas eltamaño de muestra a manejar.

3.5.-Pruebas para proporciones

Pruebas de hipótesis para la media y proporciones 

Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en una fábrica de llantas.

En este problema la fábrica de llantas tiene dos turnos de operarios, turno de día y turno mixto. Se selecciona una muestra aleatoria de 100llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas:

1.- ¿Es la duración promedio de las llantas producidas en el turno de día igual a 25 000 mil las?

Page 77: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 77/176

Estadistica Inferencial

2013

77

2.- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000 millas?

3.- ¿Se revienta más de un 8% de las llantas producidas por el turno de día antes de las 10 000 millas?

Prueba De Hipótesis Para La Media

En la fábrica de llantas la hipótesis nula y alternativa para el problema se plantearon como sigue:

Ho: μ = 25 000 

H1: μ ≠ 25 000 

Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces, con base en el teorema de limite central, ladistribución en el muestreo de la media seguiría la distribución normal, y la prueba estadística que esta basada en la diferencia entre la

media de la muestra y la media μ hipotιtica se encontrara como sigue: 

Para ver el gráfico seleccione la opción "Descargar" del menú superior 

Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar los valores críticos de la distribución. Dado quela región de rechazo esta dividida en las dos colas de la distribución, el 5% se divide en dos partes iguales de 2.5%.

Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en unidades de desviación. Una región de rechazo de0.25 en cada cola de la distribución normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se busca está área

en la distribución normal, se encuentra que los valores críticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96

Por tanto, la regla para decisión sería:

Rechazar Ho si Z > + 1.96

O si Z < - 1.96

De lo contrario, no rechazar Ho

No obstante, en la mayor parte de los casos se desconoce la desviación estándar de la población. La desviación estándar se estima alcalcular S, la desviación estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo de la media seguiríauna distribución t con n-1 grados de libertad. En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muypequeño y la población no este muy sesgada, la distribución t da una buena aproximación a la distribución de muestra de la media. La pruebaestadística para determinar la diferencia entre la media de la muestra y la media de la población cuando se utiliza la desviación estándar Sde la muestra, se expresa con:

Para una muestra de 100, si se selecciona un nivel de significancía de .05, los valores críticos de la distribución t con 100-1= 99 grados de

libertad se puede obtener como se indica en la siguiente tabla:Para ver el gráfico seleccione la opción "Descargar" del menú superior 

Como esta prueba de dos colas, la región de rechazo de .05 se vuelve a dividir en dos partes iguales de .025 cada una. Con el uso de lastablas para t, los valores críticos son –1.984 y +1.984. la regla para la decisión es:

Rechazar Ho si >+1.984

O si - 1.984

De lo contrario, no rechazar Ho

Page 78: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 78/176

Estadistica Inferencial

2013

78

Los resultados de la muestra para el turno de día fueron =25 430 millas, =4 000 millas y = 100. Puesto que se esta probandosi la media es diferente a 25 000 millas, se tiene con la ecuación

Para ver el gráfico seleccione la opción "Descargar" del menú superior 

Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.

Por ello, la de cisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración promedio de las llantas es 25 000 millas. A fin detener en cuenta la posibilidad de un error de tipo II, este enunciado se puede redactar como "no hay pruebas de que la duración promedio delas llantas sea diferente a 25 000 mil las en las llantas producidas en e l turno de día".

3.6.-Selección del tamaño de la muestra( para estimar la mediapoblacional)

Estimación de la Diferencia entre dos Medias

Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 2

2,respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la

estadística . Por tanto. Para obtener una estimación puntual de

1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población, de

tamaño n1 y n2, se calcula la diferencia , de las medias muestrales.

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación 1- 2 se tiene:

Page 79: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 79/176

Estadistica Inferencial

2013

79

En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra

sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual.

Ejemplos:

1.  Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide elrendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. Elrendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para elmotor B es 42 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia

 promedio real para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y8 para los motores A y B respectivamente.

Solución:

Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media mayor menos la media menor. En este caso será la media del motor Bmenos la media del motor A.

El valor de z para un nivel de confianza del 96% es de 2.05.

3.43< B- A<8.57

La interpretación de este ejemplo sería que con un nivel de confianza del 96% ladiferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto quiere decir que el motor B da mas rendimiento promedio que elmotor A, ya que los dos valores del intervalo son positivos.

2.  Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotillade taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio

 para la marca A 36,300 kilómetros y para la marca B 38,100 kilómetros. Calcule un intervalo deconfianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones sedistribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para lamarca A y 6100 kilómetros para la marca B.

Solución:

Page 80: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 80/176

Estadistica Inferencial

2013

80

-2662.68< B-  A<6262.67

Gráficamente:

Como el intervalo contiene el valor "cero", no hay razón para creer que elpromedio de duración del neumático de la marca B es mayor al de la marca A,pues el cero nos está indicando que pueden tener la misma duración promedio.

3.7.-Selección de la muestra para estimar la proporciónpoblacional

Prueba De Hipótesis Para Proporciones 

El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problemaanterior el gerente de la fabrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es unejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una

característica particular.El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes delas 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funcionacorrectamente. La hipótesis nula y alternativa se pueden expresar como sigue:

Ho: p .08 (funciona correctamente)

H1: p > .08 (no funciona correctamente)

La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue:

En donde

Para ver el gráfico seleccione la opción "Descargar" del menú superior 

p = proporción de éxitos de la hipótesis nula

 Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de díaíndican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel designificancía de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra:

Para ver el gráfico seleccione la opción "Descargar" del menú superior 

Y la regla de decisión sería:

Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.

Page 81: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 81/176

Estadistica Inferencial

2013

81

Con los datos que se tienen,

= = .05

Y entonces,

= = = = -1.107

Z -1.107 < + 1.645; por tanto no rechazar Ho.

La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que nohay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha encontradoninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día.

http://cosmech.tripod.com/index.htm 

Pruebas de Hipótesis 

Una hipótesis estadística es una suposición hecha con respecto a la función de distribución de una variable aleatoria.  

Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será necesario examinar toda la población. En lamayoría de las situaciones reales no es posible o practico efectuar este examen, y el camino mas aconsejable es tomar una muestraaleatoria de la población y en base a ella, decidir si la hipótesis es verdadera o falsa. 

En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si la probabilidad calculada excede elvalor tabular llamado el nivel de significación y se declara falsa si la probabilidad calculada es menor que el valor tabular. 

La prueba a realizar dependerá del tamaño de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de lasvariables. 

Si las muestras a probar involucran a más de 30 observaciones, se aplicará la prueba de Z, si las muestras a evaluar involucran unnúmero de observaciones menor o igual que 30 se emplea la prueba de t de student. La fórmula de cálculo depende de si lasvarianzas son homogéneas o heterogéneas, si el número de observaciones es igual o diferente, o si son variables dependientes. 

Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide por la menor, este resultado es unestimado de la F de Fisher. Luego se busca en la tabla de F usando como numerador los grados de libertad (n-1) de la varianzamayor y como denominador (n-1) de la varianza menor para encontrar la F de Fisher tabular. Si la F estimada es menor que la Ftabular se declara que las varianzas son homogéneas. Si por el contrario, se declaran las varianzas heterogéneas. Cuando sonvariables dependientes (el valor de una depende del valor de la otra), se emplea la técnica de pruebas pareadas. 

Como en general estas pruebas se aplican a dos muestras, se denominarán a y b para referirse a ellas, así entenderemos por: 

  na al número de elementos de la muestra a 

  nb al número de elementos de la muestra b 

  xb al promedio de la muestra b 

  s2a la varianza de la muestra a 

   Y así sucesivamente 

Entonces se pueden distinguir 6 casos a saber:  

1. Caso de muestras grandes (n>30) 2.3. Caso de na = nb y s2a = s2b 4. Caso de na = nb y s2a <> s2b 5. Caso de na <> nb y s2a = s2b  6. Caso de na <> nb y s2a <> s2b 7. Caso de variables dependientes 

1.-Cuando las muestras a probar involucran a más de 30 observaciones. 

Ejemplo: 

La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras50 palmas que no forman parte del ensayo tienen media y desviación estándar igual a 77.3 y 2.8 cm.

Page 82: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 82/176

Estadistica Inferencial

2013

82

Se desea probar la hipótesis de que las palmas que participan en el ensayo son más altas que las otras.

Consultando el valor z de la tabla a 95% de probabilidad se tiene que es 1.96, por lo consiguiente, el valor z calculado no fue mayor al valor 

de la tabla y entonces se declara la prueba no significativa.

Conclusión: Las alturas promedio de los 2 grupos de palmas son iguales y la pequeña diferencia observada en favor al primer grupo se debeal azar.

2.-Caso de número igual de observaciones y varianzas homogéneas. 

Ejemplo: 

Se plantó cierto experimento en 24 parcelas para probar el efecto de la presencia o ausencia de K en el rendimiento de palma.

Peso medio del racimo (Kg.)

n a b a2 b2

1 20.0 24.0 400.00 576.00

2 24.0 28.0 576.00 784.00

3 21.0 25.0 441.00 625.00

4 22.0 25.0 484.00 625.00

5 23.0 27.0 529.00 729.00

6 24.0 27.5 576.00 756.25

7 22.5 28.0 506.25 784.00

8 22.0 26.0 484.00 576.00

9 21.5 26.0 462.25 676.00

10 20.0 24.5 400.00 600.25

11 22.0 26.5 484.00 702.25

12 24.0 28.5 576.00 812.25

Suma 266 316 5918.5 8346

Promedio 22.16 26.33

s2a = 5918.5 - (266)2/12 = 2.0211

s2b = 8346 - (316)2/12 = 2.2411

Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se encuentra que el valor tabular es de 2.074 al 95% deprobabilidad, el cual es menor que la t calculada y por lo tanto se declara la prueba significativa.

Conclusión: La diferencia entre promedios observados es atribuible al efecto de tratamiento (K), por haberse conseguido un resultadosignificativo.

3.-Caso de igual número de observaciones y varianzas heterogéneas. 

Page 83: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 83/176

Estadistica Inferencial

2013

83

Ejemplo: 

Se plantó cierto experimento en 24 parcelas con dos clases de semillas: semilla mezclada y semilla DxP seleccionada. Se desea saber si elrendimiento observado por la semilla seleccionada difiere a la otra.

Producción de palma: TM/ha/año

Para ver la tabla seleccione la opción "Descargar" del menú superior 

s2a = 1748.61 - (144.5)2/12 = 0.7811

s2b = 4001.14 - (216.2)2/12 = 9.6311

Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.Conclusión: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras.

4.-Caso de diferente número de observaciones y varianzas homogéneas 

Ejemplo: 

Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en elcrecimiento.

 Área foliar de la hoja # 17 en m2

Para ver la tabla seleccione la opción "Descargar" del menú superior 

s2a = 968.93 - (112.1)2/13 = 0.1912

s2b = 390.84 - (59.2)2/9 = 0.188

s2c = 12(0.19) + 8(0.18) = 0.1920

Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa.

Conclusión: El rendimiento observado por las plantas de semil la seleccionada fue significativamente superior a las otras.

Ejemplo: 

Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en elcrecimiento.

 Área foliar de la hoja # 17 en m2

Para ver la tabla seleccione la opción "Descargar" del menú superior 

Page 84: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 84/176

Estadistica Inferencial

2013

84

s2a = 968.93 - (112.1)2/13 = 0.1912

s2b = 390.84 - (59.2)2/9 = 0.188

s2c = 12(0.19) + 8(0.18) = 0.1920

Consultando la tabla con (na-1) + (nb-1) o sea (20) grados de libertad, se obtiene el valor tabular de 2.086, el cual es menor que la tcalculada, por lo tanto la diferencia se declara significativa.

Conclusión: La diferencia detectada en estas dos muestras es atribuible a la aplicación del fertilizante nitrogenado.

5.- Caso de diferente número de observaciones y varianzas heterogéneas.

En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos anteriores, hay que calcularla.

Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente

Ejemplo: 

Se tomaron 2 muestras de palma comercial de orígenes diferentes y se midió el porcentaje de almendra en el racimo en ambas muestras, elobjeto es probar si las muestras son diferentes genéticamente o no.

Porcentaje de almendra

Para ver la tabla seleccione la opción "Descargar" del menú superior 

s2a = 225.02 - (53)2/14 = 1.8813

s2b = 192.26 - (43.80)2/10 = 0.059

En este caso la t generada (tg), reemplaza la t de la tabla y como la tc es menor que la tg, la diferencia se declara No significativa.

Conclusión: La diferencia observada entre promedios es atribuible únicamente a errores de muestreo o variabilidad natural, y no adiferencias genéticas.

6.-Caso de muestras pareadas (de variables dependientes) 

En este caso, se asume que las muestras han sido distribuidas por pares.

Page 85: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 85/176

Estadistica Inferencial

2013

85

Ejemplo: Se tomaron 12 foliolos de palma joven y a cada uno se le trató la mitad con Benlate para medir la inhibición del crecimiento

de hongos.Magnitud del dano

Sin Con

n Benlate Benlate D = X - Y D2

Para ver la tabla seleccione la opción "Descargar" del menú superior 

Consultando la tabla con n-1 grados de libertad se obtiene el valor tabular de 2.201, por lo tanto, la diferencia se declara significativa.

Conclusión: De la prueba se desprende que el tratamiento con benlate redujo significativamente la incidencia de hongos.

Utilidad de las hipótesis: 

El uso y formulación correcta de las hipótesis le permiten al investigador poner a prueba aspectos de la realidad, disminuyendo ladistorsión que pudieran producir sus propios deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablementecorrectas o incorrectas sin que interfieran los valores o creencias del individuo. 

Leer más: http://www.monografias.com/trabajos17/pruebas-de-hipotesis/pruebas-de-hipotesis.shtml#ixzz2GaeZCCwR 

Page 86: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 86/176

Estadistica Inferencial

2013

86

Los cálculos en Excel se muestran en la siguiente imagen:

Page 87: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 87/176

Estadistica Inferencial

2013

87

El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:

Prueba medias de dos muestras

Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son iguales. Se requieren dos muestras

independientes, una de cada una de las dos poblaciones. Considérese, por ejemplo, una compañía investigadora que

experimentan con dos diferentes mezclas de pintura, para ver si se puede modificar el tiempo de secado de una pintura para

Page 88: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 88/176

Estadistica Inferencial

2013

88

uso doméstico. Cada mezcla es probada un determinado número de veces, y comparados posteriormente los

tiempos medios de secado de las dos muestras. Una parece ser superior, ya que su tiempo medio de secado (muestra) es 30

minutos menor que el de la otra muestra.

Pero, ¿son realmente diferentes los tiempos medios de secado de las dos pinturas, o esta diferencia muestral es nada más la

 variación aleatoria que se espera, aun cuando las dos fórmulas presentan idénticos tiempos medios de secado? Una vez más,

las diferencias casuales se deben distinguir de las diferencias reales.

Con frecuencia se utilizan pruebas de dos muestras para comparar dos métodos de enseñanza, dos marcas, dos ciudades, dosdistritos escolares y otras cosas semejantes.

La hipótesis nula puede establecer que las dos poblaciones tienen medias iguales:

Para tamaños más pequeños de muestra, Z estará distribuida normalmente sólo si las dos poblaciones que se muestrean

también lo están.

Page 89: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 89/176

Estadistica Inferencial

2013

89

Ejemplo ilustrativo 

La media de las calificaciones de dos muestras de 15 estudiantes de primer semestre en la asignatura de Estadística de

la universidad UTN resulta ser de 7 y 8,5. Se sabe que la desviación típica de las calificaciones en esta asignatura fue en el

pasado de 1,5.

Page 90: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 90/176

Estadistica Inferencial

2013

90

Los cálculos en Excel se muestran en la siguiente figura:

Page 91: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 91/176

Estadistica Inferencial

2013

91

El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:

4.1.-Introducción

TAMAÑO DE LA MUESTRA

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuentavarios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, lavarianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casossencillos de cálculo del tamaño muestral delimitemos estos factores. 

Page 92: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 92/176

Estadistica Inferencial

2013

92

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:

1.  El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la

 población total.2.  El porcentaje de error que se pretende aceptar al momento de hacer la generalización.3.  El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe parageneralizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivalea decir que no existe ninguna duda para generalizar tales resultados, pero también implicaestudiar a la totalidad de los casos de la población.  Para evitar un costo muy alto para elestudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todoslos casos, entonces se busca un porcentaje de confianza menor. Comúnmente en lasinvestigaciones sociales se busca un 95%. 

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesisque sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo delerror y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.

Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son

complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó lahipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo ala investigación actual. El porcentaje con que se aceptó tal hipótesis se denominavariabilidad positiva y el porcentaje con el que se rechazó se la hipótesis es la variabilidadnegativa 

El muestreo es el proceso de tomar una proporción o parte de un universo de elementos,con la finalidad de analizar en dichos elementos, características sujetas a estudio ofenómenos factibles de observación y en base al análisis de la muestra o proporcióntomada obtener conclusiones que se refieran no sólo a la muestra sino a todo el universo.Para fines estadísticos, el universo puede considerarse finito o infinito. Se considera finitosi el número de elementos que lo constituyen es menor a 500,000 e infinito si es igual o

Page 93: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 93/176

Estadistica Inferencial

2013

93

mayor a este número.  Siempre que hagamos la elección de una muestra, debemos tener cuidado de que ésta reúna las siguientes características:

· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que serequiere para que el nivel de confiabilidad sea el que se ha establecido previamente.

· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar características similares a las de la población o universo.

Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las másimportantes son:

· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte deluniverso (muestra tomada) y no por la totalidad de él.

· Si la muestra es representativa, las deducciones resultantes sobre el universo serán

confiables.· Como solamente se estudia una parte del universo, la información obtenida se realiza enmenor tiempo.

¿Cómo obtener el tamaño de la muestra a utilizar?

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícilde contestar, sobre todo por falta de información del problema, es: ¿cuántas observaciones

se deben obtener para que el tamaño de la muestra sea realmente representativo deluniverso estadístico? En este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían en su composición de una aotra. La magnitud de la variación depende del tamaño de la muestra y de la variabilidadoriginal de la población. Así, el tamaño de la muestra queda determinada por el grado de precisión que se desea obtener y por variabilidad inicial de la población.

La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:

1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es

aceptable estadísticamente.

2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le denomina p).

Page 94: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 94/176

Estadistica Inferencial

2013

94

3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (aesta probabilidad se le denomina q= 1  – p).

4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en losresultados (error máximo de estimación), comúnmente se trabaja con errores de estimaciónentre el 2% y el 6%, ya que la validez de la información se reduce demasiado para valoresmayores del 6%.

· Determinamos el tamaño de la población o universo.

5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o

universo se considera infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el número de elementos es menor a esta cantidad).

Diferentes niveles de confianza utilizados en la práctica

Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.67

4.2.-Prueba Normal y T student

En  probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar  la media de una  población normalmentedistribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la  prueba t de Student  para la determinación de lasdiferencias entre dos medias muestrales y para la construcción del  intervalo de confianza  para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviacióntípica de una población y ésta debe ser estimada a partir de los datos de una muestra.

La distribución t de Student es la distribución de probabilidad del cociente

Page 95: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 95/176

Estadistica Inferencial

2013

95

donde

   Z tiene una distribución normal de media nula y varianza 1  V tiene una distribución ji-cuadrado con grados de libertad   Z y V son independientes 

Si  μ es una constante no nula, el cociente es una variable aleatoria que sigue ladistribución t de Student no central con parámetro de no-centralidad .

 Aparición y especificaciones de la distribución t de Student  

Supongamos que X 1,..., X n son variables aleatorias independientes distribuidasnormalmente, con media μ y varianza σ2. Sea

la media muestral. Entonces

sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de antemano,  Gosset estudió un cociente relacionado,

donde

es la varianza muestral y demostró que la función de densidad de T es

donde es igual a n − 1. 

La distribución de T se llama ahora la distribución-t de Student.

Page 96: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 96/176

Estadistica Inferencial

2013

96

El parámetro representa el número de grados de libertad . La distribución depende de , pero no de o , lo cual es muy importante en la práctica.

Intervalos de confianza derivados de la distribución t de Student 

El procedimiento para el cálculo del intervalo de confianza basado en la t de Studentconsiste en estimar la desviación típica de los datos S y calcular el error estándar de la

media , siendo entonces el intervalo de confianza para la media =

.

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de lasmedias de muestras de dos distribuciones normales se distribuye también normalmente, ladistribución t puede usarse para examinar si esa diferencia puede razonablemente suponerse

igual a cero.

 para efectos prácticos el valor esperado y la varianza son:

E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3

Historia

La distribución de Student fue descrita en 1908  por  William Sealy Gosset. Gosset trabajabaen una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación deartículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset

 publicase sus resultados bajo el seudónimo de Student 

Distribución t de Student

Función de densidad de probabilidad 

Page 97: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 97/176

Estadistica Inferencial

2013

97

Función de distribución de probabilidad 

Parámetros grados de libertad (real)

Dominio 

Función de

densidad 

(pdf)

Función de

distribución 

(cdf)donde es la

función hipergeométrica

Media  para , indefinida para otros valores

Mediana 

Moda 

Page 98: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 98/176

Estadistica Inferencial

2013

98

Varianza 

 para , indefinida para otros

valores

Coeficiente

de simetría

 para

Curtosis

 para

Entropía

 

  : función digamma,

  : función beta

Función

generadora

de

momentos 

(mgf)

4.3.-Pruebas de significancia

SIGNIFICACIÓN ESTADÍSTICA

La realización de cualquier estudio clínico-epidemiológico pretende poner de manifiesto al final del mismo si existe o no asociación entre diferentesvariables. Esta asociación puede ser resultado de que realmente exista laasociación indicada, pero esta asociación también puede ser producto del azar, de

la presencia de sesgos o de la presencia de variables de confusión.

En estadística, un resultado se denomina estadísticamente significativo cuando no es probable que haya sido debido al azar. Una "diferenciaestadísticamente significativa" solamente significa que hay evidencias estadísticasde que hay una diferencia entre las variables estudiadas. No significa que ladiferencia sea grande, importante, o significativa en el sentido estricto de lapalabra, sólo indica que hay diferencias.

Page 99: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 99/176

Estadistica Inferencial

2013

99

Una de las aplicaciones de la estadística es hacer inferencias apoblaciones, a partir de muestras. En la realización de este proceso, siempreexiste el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológicadel fenómeno a estudiar.

DEFINICION

El nivel de significación de un test es un concepto estadístico asociado a laverificación de una hipótesis. En pocas palabras, se define como la probabilidadde tomar la decisión de rechazar la hipótesis nula (H0) cuando ésta es verdadera(decisión conocida como Error tipo I, o "falso positivo"). La decisión se toma amenudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel designificación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor P, más significativo será el resultado.

La Ho (hipótesis nula) representa la afirmación de que no hay asociaciónentre las dos variables estudiadas y la H1 (hipótesis alternativa) afirma que hayalgún grado de relación o asociación entre las dos variables.

Realidad (Población)

Existe diferencia oasociación

(H0 falsa)

No existediferencia oasociación

(H0 cierta)

Resultado dela prueba

(muestra)

Diferencia oasociaciónsignificativa

(rechazo H0)

No error 

(1-β) 

Error tipo I

Error α 

Diferencia oasociación nosignificativa

(No rechazo H0)

Error tipo II

Error β 

No error 

(1-α) 

Ho (hipótesis nula) = No hay diferencia entre ambos tratamientos. H1 (hipótesis alternativa) = Sí existe diferencia.

Page 100: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 100/176

Estadistica Inferencial

2013

100

El nivel de significación se estableció siguiendo los comentarios delestadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a

 partir de la cual podamos decir: o bien hay algo en el tratamiento...".

El valor de "p" que indica que la asociación es estadísticamente

significativa ha sido arbitrariamente seleccionado y por consenso se considera en0.05.

Una seguridad del 95% lleva implícito una p < de 0.05. Una seguridad del 99% lleva implícita una p < 0.01.

Cuando rechazamos la Ho (hipótesis nula) y aceptamos la H1 (hipótesisalternativa) como probablemente cierta afirmando que hay una asociación, o quehay diferencia, estamos diciendo en otras palabras que es muy poco probable queel azar fuese responsable de dicha asociación.

Del mismo modo si la p>0.05 decimos que el azar no puede ser excluidocomo explicación de dicho hallazgo y no rechazamos la H o (hipótesis nula) queafirma que ambas variables no están asociadas o correlacionadas.

La significación estadística depende de 2 componentes fundamentales:

- Magnitud de la diferencia Cuanto más grande sea la diferencia entre 2variables, más fácil es demostrar que la diferencia es significativa.

- Tamaño muestral A mayor tamaño muestral, más fácil es detectar diferencias. Lo hace a través de del error estándar: “a mas pacientes menor error estándar”. 

Error de tipo I (α) 

El error tipo I, conocido también como erro tipo alfa, se comete cuando elinvestigador rechaza la hipótesis nula (H0), siendo ésta verdadera en la población.Es equivalente a encontrar un resultado falso positivo, ya que el investigador concluye que hay diferencia, cuando en realidad no existe.

La "p" no es un indicador de fuerza de la asociación ni de su importancia.

La significación estadística es por tanto una condición resultante del rechazo deuna hipótesis nula mediante la aplicación de una prueba estadística designificación. El nivel de significación es el riesgo o la probabilidad quevoluntariamente asume el investigador de equivocarse al rechazar la hipótesisnula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05(95%)ó 0.01 (99%).

Page 101: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 101/176

Estadistica Inferencial

2013

101

Si p < 0.05 se considera significativo, en cuyo caso se rechaza lahipótesis nula

Si p> 0.05 se considera no significativo en cuyo caso no se rechaza lahipótesis nula.

Error de tipo II (β) 

El error tipo II o beta se comete en la situación contraria: cuando elinvestigador NO rechaza la hipótesis nula (H0), siendo ésta FALSA en lapoblación. Es equivalente a un resultado falso negativo, ya que el investigador concluye que ha sido incapaz de encontrar una diferencia que existe en larealidad.

Su complemento, (1-β), conocido como PODER o POTENCIA

ESTADÍSTICA, representa la probabilidad de observar en la muestra unadeterminada diferencia o un efecto, si existen en la población.

El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad esverdadera. Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo alaumentar el nivel de confianza aumenta la probabilidad de cometer elerror de tipo II.

Recomendaciones para disminuir el error de tipo I: 

Disponer de una teoría que guíe la investigación, evitando el "salir depesca" con el ordenador buscando asociaciones entre variables. Disminuir el número de test estadísticos llevados a cabo en el estudio.

Depurar la base de datos para evitar errores de valoresextremos que puedan producir hallazgos significativos.

Utilizar valores de alfa más reducidos (0.01 ó 0.001). Reproducir el estudio. Si al reproducir el estudio se obtienen

resultados similares, estaremos más seguros de no estar cometiendo el error de tipo I.

Recomendaciones para disminuir el error de tipo II: 

Incrementar el tamaño de la muestra.Estimar el poder estadístico (potencia) del estudio. Incrementar el tamaño del efecto a detectar. Incrementar el valor de alfa.

Page 102: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 102/176

Estadistica Inferencial

2013

102

Utilizar test paramétricos (más potentes) en lugar de test noparamétricos.

POTENCIA DE UN ESTUDIO

DEFINICION DE POTENCIA

Los estudios cuyos resultados no son estadísticamente significativos suelendenominarse “estudios negativo”. Sin embargo, la usencia de significación noimplica necesariamente que no exista en la realidad una asociación relevanteentre el factor de estudio y la respuesta.

La probabilidad de cometer este error se conoce como β, y su complemento 1 -βcorresponde a la potencia estadística, que cuantifica la capacidad de un estudiopara detectar como estadísticamente significativo una determinada diferencia oasociación que existe en la realidad.

El poder estadístico de un estudio depende de diferentes factores, como:

1. El  tam año de l efec to a detec tar , es decir, la magnitud mínima de ladiferencia o asociación entre los grupos que se considera clínicamenterelevante Cuanto mayor sea el tamaño del efecto que se desea detectar,mayor será la probabilidad de obtener hallazgos significativos y, por lotanto, mayor será el poder estadístico.

2. La variabi l idad  de la respuesta estudiada. A mayor variabilidad en la respuesta, más difícil será detectar diferencias

entre los grupos que se comparan y menor será el poder estadístico de lainvestigación.De ahí que sea recomendable estudiar grupos lo más homogéneosposibles.

3. El tam año d e la muest ra a estudiar. A mayor tamaño muestral, mayor será la potencia estadística de un estudio.

4. El niv el de s ign ificac ión estadísti ca . Si se disminuye el valor deα también se disminuye el poder de la prueba.Habitualmente se trabaja con un nivel de significación del 95% (α = 0,05),

por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño dela muestra que es posible estudiar y el poder que se quiere para el estudio.

Los cuatro factores anteriores, junto con el poder estadístico, forman un sistemacerrado. De este modo, una vez fijados tres de ellos, el cuarto quedacompletamente determinado.

Page 103: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 103/176

Estadistica Inferencial

2013

103

CÁLCULO DE LA POTENCIA

Generalmente, se suele trabajar con un poder en torno al 80% o al 90%.Con frecuencia, las condiciones en las que se lleva a cabo una investigación sondiferentes de las que se habían previsto en un principio. En consecuencia, y a la

vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriorisu potencia con el fin de discernir si el estudio carece del poder necesario paradetectar una diferencia relevante o bien si realmente puede no existir taldiferencia.

Existen fórmulas que calculan el poder estadístico en función de lanaturaleza de la investigación. Con estas fórmulas obtienes un valor, a partir delcual se determina la potencia recurriendo a unas tablas de la distribución normal.

Sin embargo, y aunque dichas fórmulas nos permitirían analizar el poder estadístico en diferentes tipos de diseño, puede resultar más sencillo disponer de

algún software específico con el que poder realizar dichos cálculos.

Tabla 3. Valores de , y más frecuentemente utilizados. 

Seguridad  α  Test unilateral Test bilateral

80 % 0,200 0,842 1,282

85 % 0,150 1,036 1,440

90 % 0,100 1,282 1,645

95 % 0,050 1,645 1,96097,5 % 0,025 1,960 2,240

99 % 0,010 2,326 2,576

Poder estadístico 

99 % 0,99 0,01 2,326

95 % 0,95 0,05 1,645

90 % 0,90 0,10 1,282

85 % 0,85 0,15 1,036

80 % 0,80 0,20 0,842

75 % 0,75 0,25 0,674

70 % 0,70 0,30 0,524

65 % 0,65 0,35 0,385

60 % 0,60 0,40 0,253

55 % 0,55 0,45 0,126

50 % 0,50 0,50 0,000

Page 104: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 104/176

Estadistica Inferencial

2013

104

Tanto si los hallazgos son estadísticamente significativos como si no lo son,la estimación de intervalos de confianza pueden también facilitar la interpretaciónde los resultados en términos de magnitud y relevancia clínica, proporcionándonos

una idea de la precisión con la que se ha efectuado al estimación, de la magnitudy de la dirección del efecto. De este modo, los intervalos de confianza nospermiten tener una idea acerca del poder estadístico de un estudio y, por tanto, dela credibilidad de la ausencia de hallazgos significativos.

4.4.-Comparación de dos muestras independientes

Comparación de muestras independientes

Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones

normales e independientes, se utiliza el procedimiento Prueba T para muestrasindependientes, y para ello, se selecciona:

A continuación se abre una ventana con los siguientes campos:

Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir,aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos.Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los grupos desujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón DEFINIR 

GRUPOS y al presionarlo aparece una ventana donde se introducen los valores de la variable quedefinen los dos grupos de sujetos a comparar, o el valor de la variable que hará de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado,el individuo pertenecerá al primer grupo, y en caso contrario, al segundo.Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la secciónanterior el nivel de confianza para el intervalo y la forma de tratar los valores missing.

Page 105: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 105/176

Estadistica Inferencial

2013

105

Ejemplo 4.3. Vamos a comprobar si existen diferencias significativas entre los tiemposmedios de dedicación a la docencia, para los profesores asociados y los titulares deuniversidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para

muestras independientes, y elegimos la variable Tiemdoc para llevarla al campoContrastar Variables. Seguidamente seleccionamos como Variable Agrupación lavariable Categoría, presionamos el botón DEFINIR GRUPOS, y tecleamos un 1 en el primer grupo y un 3 en el segundo. Por último pulsamos CONTINUAR y ACEPTAR para ejecutar el procedimiento.

El resultado que muestra la Tabla 3 contiene dos tablas. La primera recoge para ambosgrupos, profesores asociados y titulares de universidad, el número de casos en cadamuestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y los errorestípicos de la media. La segunda tabla muestra el valor del estadístico para la prueba deLevene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye como una Fde Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar quelas varianzas sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tablael valor del estadístico para resolver el contraste de igualdad de medias, supuesto varianzasiguales y distintas, (en ambos casos se distribuye como una t de Student), junto con loscorrespondientes grados de libertad y sus p-valores. Puesto que hemos concluido que lasvarianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale8.661, y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento quetambién se puede deducir del intervalo de confianza, que no contiene el cero.

Tabla 3: Contraste sobre las Medias de dos Poblaciones Independientes 

Prueba T Estadísticos de Grupo 

Desviación Error típ. de

Categoría N Media típ. la media

Tiempo diario 1 29 251,3759 29,36731 5,4534

 para la docencia 3 23 187,1000 22,5337 4,6986

Prueba de muestras independientes 

Prueba de Levene para

 la igualdad  Prueba T para la igualdad de medias de varianzas 

F Sig. t glSig.

 bilateralDiferencia de

mediasError típico de la

diferenciaIntervalo de confianza para

la diferencia Inferior Superior 

Tiempo Asumiendo 0.808 0,373 8,661 50 0.000 64,2759 7,4209 49,3704 79,1813

Page 106: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 106/176

Estadistica Inferencial

2013

106

diariovarianzasiguales

 para la No

Asumiendo8,929 49,961 0.000 64,2759 7,1983 49,8173 78,7345

docenciavarianzasiguales

4.5.-Prueba de Fisher 

En estadística se denomina prueba F de Snedecor a cualquier   prueba en la que elestadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. Elnombre fue acuñado en honor a Ronald Fisher . 

En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:

  La hipótesis de que las medias de múltiples poblaciones normalmente distribuidas y con la mismadesviación estándar  son iguales. Esta es, quizás, la más conocida de las hipótesis verificada medianteel test F y el problema más simple del análisis de varianza. 

  La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas soniguales, lo cual se cumple.

En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dosmodelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresiónconforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la sumade cuadrados de residuos de los dos modelos como sigue:

Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo

0 restringe m coeficientes, el test F puede calcularse como

 A diferencia de otras pruebas de medias que se basan en la diferencia existente entre dos valores, el análisis de varianza emplea la razón delas estimaciones, dividiendo la estimación intermediante entre la estimación interna

Esta razón F fue creada por Ronald Fisher (1890-1962), matemático británico, cuyas teoríasestadísticas hicieron mucho más precisos losexperimentos científicos. Sus proyectos estadísticos, primero utilizados en biología, rápidamente cobraron importancia y fueron aplicados a laexperimentación agrícola, médica e industrial. Fisher también contribuyó a clarificar las funciones que desempeñan la mutación y la selección natural en la genética, particularmente en la población humana.

El valor  estadístico de prueba resultante se debe comparar con un valor tabular de F, que indicará el valor máximo del valor estadísti co deprueba que ocurría si H0 fuera verdadera, a un nivel de significación seleccionado. Antes de proceder a efectuar este cálculo, se debeconsiderar las características de la distribución F

Page 107: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 107/176

Estadistica Inferencial

2013

107

Características de la distribución F 

- Existe una distribución F diferente para cada combinación de tamaño de muestra y número de muestras. Por tanto, existe una distribución Fque se aplica cuando se toman cinco muestras de seis observaciones cada una, al igual que una distribución F diferente para cinco muestrasde siete observaciones cada una. A propósito de esto, el número distribuciones de muestreo diferentes es tan grande que sería poco prácticohacer una extensa tabulación de distribuciones. Por tanto, como se hizo en el caso de la distribución t, solamente se tabulan los valores quemás comúnmente se utilizan. En el caso de la distribución F, los valores críticos para los niveles 0,05 y 0,01 generalmente se proporcionan

para determinadas combinaciones de tamaños de muestra y número de muestras.

La razón más pequeña es 0. La razón no puede ser negativa, ya que ambos términos de la razón F están elevados al cuadrado.

Por otra parte, grandes diferencias entre los valores medios de la muestra, acompañadas de pequeñas variancias muestrales pueden dar como resultado valores extremadamente grandes de la razón F.

- La forma de cada distribución de muestreo teórico F depende del número de grados de libertad que estén asociados a ella. Tanto elnumerador como el denominador tienen grados de libertad relacionados.

Determinación de los grados de libertad Los grados de libertad para el numerador y el denominador de la razón F se basan en los cálculos necesarios para derivar cada estimaciónde la variancia de la población. La estimación intermediante de variancia (numerador) comprende la división de la suma de las diferenciaselevadas al cuadrado entre el número de medias (muestras) menos uno, o bien, k - 1. Así, k - 1es el número de grados de libertad para el 

numerador. 

En forma semejante, el calcular cada variancia muestral, la suma de las diferencias elevadas al cuadrado entre el valor medio de la muestra ycada valor de la misma se divide entre el número de observaciones de la muestra menos uno, o bien, n - 1. Por tanto, el promedio de lasvariancias muestrales se determina dividiendo la suma de las variancias de la muestra entre el número de muestras, o k.  Los grados de libertad 

 para el denominador son entonces, k(n -l). 

Uso de la tabla de F del análisis de variancia (ANOVA) 

En la tabla 5 se ilustra la estructura de una tabla de F para un nivel de significación de 0,01 o 1% y 0,05 o 5%.

Page 108: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 108/176

Estadistica Inferencial

2013

108

Cálculo de la razón F a partir de datos muestrales 

Para calcular F se debe seguir el siguiente procedimiento

1) Calcular la estimación interna (Denominador)

2) Calcular la estimación intermediante (Numerador)

Page 109: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 109/176

Estadistica Inferencial

2013

109

Ejemplo ilustrativo 

Los pesos en kg por 1,7 m de estatura se ilustran en la siguiente tabla. La finalidad es determinar si existen diferencias reales entre las cuatromuestras. Emplear un nivel de significación de 0,05

Solución: 

Las hipótesis Nula y Alternativa son:

Page 110: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 110/176

Estadistica Inferencial

2013

110

Calculando las medias aritméticas se obtiene:

Se llena la siguiente tabla para calcular las varianzas muestrales:

Page 111: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 111/176

Estadistica Inferencial

2013

111

Remplazando los datos en la fórmula de la varianza se obtienen las varianzas de las 4 muestras.

Calculando la estimación interna de varianza se obtiene:

Para calcular la estimación intermediante de varianza primero se calcular la varianza de las medias aritméticas

Page 112: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 112/176

Estadistica Inferencial

2013

112

Se llena la siguiente tabla:

Se remplaza los datos de la tabla para calcular varianza de las medias aritméticas

Calculando la estimación intermediante de varianza se obtiene:

Los cálculos en Excel se muestran en la siguiente figura:

Page 113: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 113/176

Estadistica Inferencial

2013

113

La gráfica elaborada en Winstats y Paint se muestra en la siguiente figura:

Page 114: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 114/176

Estadistica Inferencial

2013

114

Decisión: 

Page 115: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 115/176

Estadistica Inferencial

2013

115

4.6.-Comparación de muestras pareadas

Si estamos comparando un resultado cuantitativo en dos grupos de datos, a partir demuestras extraídas de forma aleatoria de una población normal, siendo nA el tamañode la primera muestra y nB el de la segunda, la cantidad:

(donde son las medias muestrales, las correspondientes mediaspoblacionales, s la desviación típica muestral conjunta), se distribuye como una t de

Student con n A+nB-2 grados de libertad, proporcionándonos una referenciaprobabilística con la que juzgar si el valor observado de diferencia de medias nospermite mantener la hipótesis planteada, que será habitualmente la hipótesis deigualdad de las medias (por ejemplo igualdad de efecto de los tratamientos), o lo que

es lo mismo nos permite verificar si es razonable admitir que a la luz delos datos obtenidos en nuestro experimento.

Veamos un pequeño ejemplo. Se efectuó un estudio para comparar dos tratamientosen cuanto a la mejoría en la salud percibida, determinada mediante un cuestionario decalidad de vida en pacientes hipertensos. Se asignaron 10 pacientes de forma aleatoriaa cada uno de los grupos de tratamiento, obteniéndose los siguientes resultados:

Tabla 1 

Trat. A 5.2 0.2 2.9 6.3 2.7 -1.4 1.5 2.8 0.8 5.3

Trat. B 6.0 0.8 3.2 6.2 3.8 -1.6 1.8 3.3 1.3 5.6

Si calculamos el valor de t según la fórmula anterior (o utilizando la calculadora disponibleen el enlace que indicamos más abajo) obtenemos: 

Tabla 2 

Dif.medias 0.41

Err.est.dif. 1.11

t Student 0.37

gl 18

P 0.7165

Intervalo 95% para la dif. de medias -1.93 a 2.75

Tabla 3 

Trat. A Trat. B 

Media 2,63 3,04

Desv.Típ. 2,45 2,52

Page 116: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 116/176

Estadistica Inferencial

2013

116

De acuerdo conesos resultados, alser la probabilidadobtenida alta,vemos que no hay

razones pararechazar lahipótesis de que noexiste diferenciaentre los grupos(P= 0.7165),aceptamos que lasmedias son iguales,lo que podemostambién comprobar de forma gráfica, si

representamos cadaserie de valores endos posiciones deleje X, obteniendoun gráfico como elrepresentado en lafigura 1. 

Ahora bien,sabemos que dosvariables que

influyen en losresultados de loscuestionarios decalidad de vida percibida son laedad y el sexo delos pacientes. Alasignar de formaaleatoria los pacientes a cadagrupo detratamientoesperamos que lasvariables que puedan influir en elresultado,diferentes del propio tratamientoasignado, se

Page 117: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 117/176

Estadistica Inferencial

2013

117

distribuyan enambos grupos deforma parecida; pero cuando deantemano

conocemos quealgunas variables síinfluyen en el parámetro objetode estudio, podemoscontrolarlas en eldiseño para evitar que puedan afectar al resultado, sobretodo cuando vamos

a trabajar con unamuestra pequeña.

Así en nuestroejemplo podemosdividir los pacientes dentro decada sexo en variosgrupos de edad y buscar parejas de pacientes con el

mismo sexo y conedades similares.Dentro de cada pareja,seleccionada conese criterio (igualsexo y edadsimilar), asignamosde forma aleatoriacada uno de lostratamientos.

Esto es lo que precisamentehabíamos hecho enel estudio de latabla 1: habíamosdividido la edad en5 categorías y

Page 118: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 118/176

Estadistica Inferencial

2013

118

seleccionado 5 parejas de hombresy 5 de mujeres encada grupo deedad. Dentro de

cada par hemosasignado de formaaleatoria eltratamiento A o elB a cada uno desus elementos.

En este caso hemos "diseñado" un estudio, en el que mediante el emparejamiento estamoscontrolando (o bloqueando) la influencia de las variables edad y sexo.  

Ahora en el análisis estadístico de los datos, para tener en cuenta el diseño, hay quecomparar cada pareja de valores entre sí.

Pero antes de hacer un análisisestadístico vamos arepresentar gráficamente elnuevo planteamiento. 

Si calculamos lasdiferencias entre elvalor del elemento

B y el elemento Ay las representamosgráficamenteobtenemos la figura2, donde hemosdibujado una líneahorizontal en elvalor 0, quecorresponde a laigualdad entre lostratamientos.

 Figura 2 

Vemos que el panorama cambia radicalmente con respecto a la figura 1, ya que ahora lamayor parte de los puntos están por encima de esa línea de igualdad de efecto, reflejandouna mayor puntuación por término medio en el tratamiento B que en el A dentro de las parejas.

En la siguiente tabla vemos los resultados del análisis estadístico, muy diferentes de losobtenidos en la tabla 1 en la que no se tenía en cuenta el tipo de diseño 

Page 119: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 119/176

Estadistica Inferencial

2013

119

Dif. B - A  Resultado

Media 0,410

Desv.Típ. 0,387

Tamaño 10

Err.est.dif. 0,122

t Student 3,349

gl 9

P 0,0085

Int. conf. 95% para la media 0,133 a 0,687

Ahora hemos calculado la media de las diferencias d , y su desviación típica sd en las n  parejas. El error estándar de la media de las diferencias es: 

Por lo que el valor de t será ahora

que en la hipótesis de igualdad -media de las diferencias igual a cero-, se distribuye comouna t de Student con n-1 grados de libertad.

Aunque perdemos grados de libertad, siendo por ese lado la prueba menos potente, sinembargo al disminuir la variabilidad se aumenta la eficiencia de la prueba. No siempre será

tan dramática la diferencia entre ambos planteamientos, ya que en este caso se trata dedatos preparados y en la realidad las cosas no suelen salir tan redondas.

Cuando efectivamente influye en el resultado la variable que nos ha llevado a decidir utilizar un diseño pareado, las medidas dentro de cada pareja estarán correlacionadas, por loque siempre podemos comprobar a posteriori si esto es así, calculando el coeficiente decorrelación, que debiera ser positivo y de cierta entidad.

El concepto de prueba pareada se puede extender a comparaciones de más de dos grupos yhablaremos entonces de bloques de m elementos (tantos elementos por bloque comogrupos o tratamientos), siendo por tanto una pareja un caso particular de bloque de 2

elementos. Hablaremos de este tipo de diseños más adelante, cuando dediquemos algúnartículo al análisis de la varianza, que es la prueba que se utiliza para comparar más de dosgrupos. En estas técnicas de formación de bloques el investigador deja de ser un meroobservador, para pasar a "diseñar" el estudio o experimento, y es una metodología de granutilidad en muchos tipos de trabajos de investigación en diversas áreas, desde la agriculturadonde se inició, a la medicina, biología, e ingeniería. El fundamento en el que se basan esen suponer que el bloque es más homogéneo que el conjunto, por lo que restringiendo las

Page 120: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 120/176

Estadistica Inferencial

2013

120

comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor  precisión.

Hay que destacar que no siempre el diseño pareado es el más efectivo, ya que como seapuntó anteriormente hay una disminución en los grados de libertad que debe ser 

compensada con la reducción de varianza para que la prueba resulte más efectiva. Haymuchas situaciones en las que las observaciones "próximas" están relacionadasnegativamente, de tal manera que las comparaciones entre parejas son entonces menos parecidas que otras comparaciones.

En los estudios clínicos el emparejamiento se utiliza habitualmente más que por razones deeficiencia para "aumentar" la validez de las inferencias obtenidas, mediante el control de posibles variables confusoras. Por ello se desaconseja, en el criterio para emparejar, lautilización de variables sobre las que no estemos seguros de su influencia en el resultado deinterés.

Pruebas pareadas para variables cualitativas 

El concepto de diseño pareado se puede aplicar también al análisis de datos cuyo resultadoes una categoría. Veamos la situación más sencilla, para el caso de que la variablecualitativa sea dicotómica o binaria, con sólo dos posibles repuestas. Este planteamiento eshabitual en algunos estudios de casos-controles, en los que cada caso se empareja con uncontrol de acuerdo con un criterio determinado, y en el que se trata de valorar la frecuenciade la presencia de un factor de riesgo. Podemos representar los resultados en una tabla de lasiguiente forma: 

Controles 

Factor presente Factor ausente

Casos Factor presente a b a+b

Factor ausente c d c+d

a+c b+d n

donde en cada celda se refleja el número de parejas; así a es el número de parejas en las queel factor de riesgo está presente tanto en el caso como en el control, y d es el número de parejas en las que ni en el caso ni el control se da el factor de riesgo. Es evidente que enesas dos celdas hay concordancia entre lo observado en el caso y lo observado en el control,dentro de la pareja, y que por tanto no afectarán al resultado en cuanto a diferencias entrecasos y controles, siendo sólo los pares discrepantes b, c los que aportan información en esesentido. 

La proporción de controles que presentan el factor de riesgo es

Page 121: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 121/176

Estadistica Inferencial

2013

121

y la proporción de casos con el factor de riesgo

La diferencia de proporciones en cuanto a presencia del factor de riesgo entre casos ycontroles es:

donde como ya anticipábamos las cantidades a y d no intervienen. El error estándar de esadiferencia viene dado por:

El cuadrado del cociente entre la diferencia y su error estándar, se distribuye bajo lahipótesis de igualdad como una chi² con 1 grado de libertad, y el contraste se conoce comoprueba de McNemar:

Si se aplica la corrección de continuidad (recomendable sobre todo si el tamaño de muestraes pequeño o hay celdas con frecuencias pequeñas), la fórmula anterior se modifica

ligeramente:

Para estimar el odds ratio en este tipo de diseño se utiliza la fórmula:

donde de nuevo solo intervienen los pares con desacuerdo.

El error estándar de este odds ratio se calcula como

Page 122: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 122/176

Estadistica Inferencial

2013

122

En una primera impresión puede sorprendernos la fórmula para el cálculo del odds ratio, pero su obtención es sencilla si pensamos que en realidad cada pareja es un estrato con 2elementos, y que no debemos combinar las tablas obtenidas en cada estrato juntándolas sinmás. Si aplicamos para el cálculo del odds ratio combinado el método habitual conocidocomo de Mantel-Haenszel obtendremos la fórmula anterior.

Este planteamiento se puede extender también al caso de una variable con más de dosrespuestas (prueba de Stuart-Maxwell) o también al caso de agrupaciones de más de doselementos por bloque.

4.7.-Modelos totalmente aleatorioEs un diseño en el cual los tratamientos son asignados completamente al azar a las unidades experimentaleso viceversa. Este diseño es usado ampliamente y aplicado a problemas tanto administrativos comoindustriales

Características principales

1. Aplicable sólo cuando las unidades experimentales son homogéneas (verificar si existe tal

homogeneidad).2. Los tratamientos pueden tener igual o diferente número de unidades experimentales.3. La distribución de los tratamientos es al azar en las unidades experimentales.El número de tratamientos está en función del número de unidades experimentales que se dispone. Esconveniente tener pocos tratamientos y más unidades experimentales que muchos tratamientos con pocasunidades experimentales.

DCA CON UNA OBSERVACIÓN POR UNIDAD EXPERIMENTAL.

Cada tratamiento (i=1,...,t), dispone de un número de unidades igual a ri, cada unidad experimental es unarepetición y el valor observado en la u.e. es Yij .Cada observación es expresada en términos de una ecuación según el modelo estadístico:

Corresponde al modelo del diseño experimental y es una expresión aditivo lineal del valor observado Yij comola suma de tres elementos:

μ = Factor constante ( parámetro).  _ i = Efecto del tratamiento (parámetro) en la unidad experimental.eij = Error, valor de la variable aleatoria Error experimental.

Cada observación es expresado de la misma forma; el conjunto de ecuaciones constituye el modelo, son"r." ecuaciones.

El modelo lineal general para el diseño completamente al azar es entonces:

La descripción de este modelo se complementa con los supuestos de los efectos de tratamiento según:

Cuando el Investigador fija los tratamientos en estudio y se interesa en los resultados de estos tratamientos, elmodelo se denomina de EFECTOS FIJOS, conocido como modelo I. Las hipótesis son:Nula y alternativa 

Page 123: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 123/176

Estadistica Inferencial

2013

123

4.8.-Selección del tamaño de la muestra para estimar la diferencia dedos medias

Determinación del tamaño de una muestra para medias, y Proporciones

TAMAÑO DE LA MUESTRA

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuentavarios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, lavarianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casossencillos de cálculo del tamaño muestral delimitemos estos factores. 

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:

1.  El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total.

2.  El porcentaje de error que se pretende aceptar al momento de hacer la generalización.3.  El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para

generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivalea decir que no existe ninguna duda para generalizar tales resultados, pero también implicaestudiar a la totalidad de los casos de la población.  Para evitar un costo muy alto para elestudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todoslos casos, entonces se busca un porcentaje de confianza menor. Comúnmente en lasinvestigaciones sociales se busca un 95%. 

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesisque sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por 

considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo delerror y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.

Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no soncomplementarios la confianza y el error.

Page 124: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 124/176

Estadistica Inferencial

2013

124

La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó lahipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo ala investigación actual. El porcentaje con que se aceptó tal hipótesis se denomina

variabilidad positiva y el porcentaje con el que se rechazó se la hipótesis es la variabilidadnegativa 

El muestreo es el proceso de tomar una proporción o parte de un universo de elementos,con la finalidad de analizar en dichos elementos, características sujetas a estudio ofenómenos factibles de observación y en base al análisis de la muestra o proporcióntomada obtener conclusiones que se refieran no sólo a la muestra sino a todo el universo.Para fines estadísticos, el universo puede considerarse finito o infinito. Se considera finitosi el número de elementos que lo constituyen es menor a 500,000 e infinito si es igual omayor a este número.  Siempre que hagamos la elección de una muestra, debemos tener cuidado de que ésta reúna las siguientes características:

· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que serequiere para que el nivel de confiabilidad sea el que se ha establecido previamente.

· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar características similares a las de la población o universo.

Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las másimportantes son:

· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte deluniverso (muestra tomada) y no por la totalidad de él.

· Si la muestra es representativa, las deducciones resultantes sobre el universo seránconfiables.

· Como solamente se estudia una parte del universo, la información obtenida se realiza enmenor tiempo.

¿Cómo obtener el tamaño de la muestra a utilizar?

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícilde contestar, sobre todo por falta de información del problema, es: ¿cuántas observacionesse deben obtener para que el tamaño de la muestra sea realmente representativo del

Page 125: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 125/176

Estadistica Inferencial

2013

125

universo estadístico? En este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las muestras varían en su composición de una aotra. La magnitud de la variación depende del tamaño de la muestra y de la variabilidadoriginal de la población. Así, el tamaño de la muestra queda determinada por el grado de precisión que se desea obtener y por variabilidad inicial de la población.

La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:

1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% esaceptable estadísticamente.

2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se le denomina p).

3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (a

esta probabilidad se le denomina q= 1  – p).

4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en losresultados (error máximo de estimación), comúnmente se trabaja con errores de estimaciónentre el 2% y el 6%, ya que la validez de la información se reduce demasiado para valoresmayores del 6%.

· Determinamos el tamaño de la población o universo.

5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población o universo sujeto a estudio se va a considerar infinito ó infinito. (Una población o

universo se considera infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el número de elementos es menor a esta cantidad).

Diferentes niveles de confianza utilizados en la práctica

Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%

Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.67

El tamaño de la muestra:

 Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo deunidades de análisis ( personas, organizaciones, capitulo de telenovelas, etc), que se necesitan

Page 126: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 126/176

Estadistica Inferencial

2013

126

para conformar una muestra ( )n que me asegure un error estándar menor que 0.01 ( fijado por el

muestrista o investigador), dado que la población  N es aproximadamente de tantos elementos.

En el tamaño de una muestra de una población tenemos que tener presente además si esconocida o no la varianza poblacional.

Para determinar el tamaño de muestra necesario para estimar    con un error máximo permisible

d prefijado y conocida la varianza poblacional (2  ) podemos utilizar la formula:

21

2

 

 

 

 

 

 Z n

   

(1)

que se obtiene de reconocer que d es el error estándar o error máximo prefijado y está dado por la

expresión2

1  

  Z 

n

d  para el nivel de confianza  1 y constituye una medida de la

precisión de la estimación, por lo que podemos inferir además que    1d  x P  .

Ejemplo 1.2

Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento enuna industria. Se conoce que el peso de un saco que se llena con este instrumento es una variablealeatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg.Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.

Solución:

96,1

975,01

95,01

5,0

1,0

21

2

 

 

 

 

 Z 

 

4,961,0

96,15,02

21

2  

  

 

 

 

 

 

 Z n

   

Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamaño de muestra sería de 97.

Si la varianza de la población es desconocida, que es lo que mas frecuente se ve en la práctica eltratamiento será diferente, no es posible encontrar una fórmula cuando la varianza poblacional esdesconocida por lo que para ello aconsejamos utilizar el siguiente procedimiento-

Primeramente, se toma una pequeña muestra, que se le llama muestra piloto, con ella se estima la

varianza poblacional (2  ) y con este valor se evalúa en la formula (1), sustituyendo (

2  ) por su

estimación (2 s ). El valor de nobtenido será aproximadamente el valor necesario, nuevamente

con ese valor de n se extrae una muestra de este tamaño de la población se le determina la

Page 127: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 127/176

Estadistica Inferencial

2013

127

varianza a esa muestra, como una segunda estimación de (2  ) y se aplica de nuevo la formula

(1), tomando la muestra con el n obtenido como muestra piloto para la siguiente iteración, se

llegará a cumplir con las restricciones prefijadas. Se puede plantear esta afirmación ya que la2 s

de2  tiende a estabilizarse a medida que aumenta n alrededor de la

2  por lo que llegará el

momento en que se encuentre el tamaño de muestra conveniente, sin embargo, en la práctica esmucho más sencillo pues, a lo sumo con tres iteraciones se obtiene el tamaño de muestradeseado, este procedimiento para obtener el tamaño de muestra deseado se puede realizar utilizando en Microsoft Excel en la opción análisis de datos las opciones estadística descriptivapara ir hallando la varianza de cada una de las muestras y la opción muestra para ir determinadolas muestras pilotos. Para obtener el tamaño de la muestra utilizando este método recomendamosla utilización de un paquete de computo como por ejemplo el Microsoft Excel, aplicando lasopciones muestra y estadística descriptiva.

Para determinar el tamaño de la muestra cuando los datos son cualitativos es decir para el análisisde fenómenos sociales o cuando se utilizan escalas nominales para verificar la ausencia opresencia del fenómeno a estudiar, se recomienda la utilización de la siguiente formula:

 N n

n

n '1

'

  (2)

siendo2

2

 sn sabiendo que:

2  es la varianza de la población respecto a determinadas variables.

2 s es la varianza de la muestra, la cual podrá determinarse en términos de probabilidad

como )1(2  p p s  

 sees error estandar que está dado por la diferencia entre ( x  ) la media poblacional y

la media muestral.

2 se es el error estandar al cuadrado, que nos servirá para determinar 2  , por lo que

2  = 2 se es la varianza poblacional.

Ejemplo 1.3

De una población de 1 176 adolescentes de una ciudad X se desea conocer la aceptación por losprogramas humorísticos televisivos y para ello se desea tomar una muestra por lo que se necesitasaber la cantidad de adolescentes que deben entrevistar para tener una información adecuada conerror estandar menor de 0.015 al 90 % de confiabilidad.Solución:

 N  = 1 176 se = 0,015

000225.0)015,0()( 222 se   

09,0)9,01(9,0)1(2 p p s  

Page 128: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 128/176

Estadistica Inferencial

2013

128

por lo que 400000225,0

09,0'

2

2

 

 sn  

2981

400

1

'

1176

400'

 N 

n

nn  

Es decir para realizar la investigación se necesita una muestra de al menos 298 adolescentes.

Cálculo del tamaño de la muestra

 A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta variosfactores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianzapoblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculodel tamaño muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimaciónde los parámetros.

Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y su parámetrocorrespondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas entorno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad unaestimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de uncenso completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicaráhasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos deconfianza que varían muestra a muestra). Varía según se calcule al principio o al final. Unestadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es ladesviación de la distribución muestral  de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss oStudent), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en tornoa un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el númerode entrevistas necesarias para construir un modelo reducido del universo, o de la población, serámás pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos deestudios previos.Tamaño de muestra para estimar la media de la población

Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo

aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel deconfianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamosdispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:

Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreoaleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel deconfianza al que queremos trabajar; en segundo lugar, cual es el error máximo que estamosdispuestos a admitir en nuestra estimación. Así pues los pasos a seguir son:

1.- Obtener el tamaño muestral imaginando que N 

Page 129: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 129/176

Estadistica Inferencial

2013

129

Donde:

: z correspondiente al nivel de confianza elegido

: varianza poblacionale: error máximo

2.- Comprobar si se cumple

Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemosmuestrear.Si no se cumple, pasamos a una tercera fase:3.- Obtener el tamaño de la muestra según la siguiente fórmula:

Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de conocer elpromedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra seráextraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social yde las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando conun nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debeser el tamaño muestral que Empleemos?.

Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de

confianza elegido: = ±1.96 y seguimos los pasos propuestos arriba.1.

2.- Comprobamos que no se cumple, pues en este caso

10000 < 3706 (3706 - 1); 10000 < 137307303.-

Tamaño de muestra para estimar la proporción de la población

Page 130: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 130/176

Estadistica Inferencial

2013

130

Para calcular el tamaño de muestra para la estimación de proporciones poblaciones hemos detener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirádeterminar el tamaño muestral es la siguiente:

donde

: z correspondiente al nivel de confianza elegidoP: proporción de una categoría de la variablee: error máximoN: tamaño de la población

Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar laproporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se dedujoque P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.

4.9.-Aplicaciones

I.- Sobre la variedad de Métodos de Estimación en el contextomultiecuacional

  Los modelos multiecuacionales se caracterizan por presentar un sistemainterconectado de variables y ecuaciones, es decir, un sistema en el que lasimultaneidad entre endógenas aparece en mayor o menor medida.

  Precisamente esa mayor o menor simultaneidad en las relaciones entreendógenas es un factor decisivo para determinar las propiedades de los distintosmétodos de estimación. Esto no significa que sea la única variable a considerar (afectará también la identificabilidad del modelo o el deseo de una estimaciónasintóticamente eficiente), pero sí resulta el primero de los factores

 ANALÍTICAMENTE claves para una primera aproximación al método de

estimación correcto.

Page 131: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 131/176

Estadistica Inferencial

2013

131

  En ese sentido, la primera de las clasificaciones de los distintos estimadoresdisponibles responde en gran medida al criterio de la simultaneidad; cada uno delos grandes grupos de métodos se configura para ser aplicado a modelos conmayor o menor simultaneidad.

- Métodos de Estimación de Enfoque Directo: Cada ecuación se estima de formaseparada y sin atender en ninguna medida a la información del resto delmodelo. Por ni la presencia de otras endógenas y/o exógenas ni, por supuesto,la configuración concreta del resto de ecuaciones, son relevantes en losresultados obtenidos en cada ecuación. (MCO)

- Métodos de Estimación con Información Limitada: Cada ecuación se estimatambién de forma aislada pero, al menos, se requiere información sobre lapresencia de otras variables en el modelo (qué endógenas y qué exógenasaparecen en el modelo); sigue sin ser imprescindible, eso si, la especificaciónconcreta de cada ecuación. Así pues, algunos cambios en el modelo, por ejemplo la inclusión de nuevas exógenas o endógenas, podrían afectar a los

resultados de la estimación obtenidos en cada ecuación. (MCI, MC2E)- Información Completa: No se estiman los parámetros de cada ecuación por 

separado, sino que se aborda la estimación conjunta de todo el modelo. Esimprescindible, por tanto, conocer la especificación detallada, concreta, decada una de las ecuaciones del modelo. Del mismo modo, cualquier cambio,por pequeño que sea, en las variables o especificación de cada ecuaciónrequerirá una nueva estimación de todos los parámetros del modelo.

  Visto lo anterior, parece evidente que, desde el punto de vista analítico, la formaen la que el analista adecua el método de estimación al tipo de modeloespecificado, teniendo por tanto en cuenta esa mayor o menor presencia desimultaneidad, influye en las propiedades de los estimadores obtenidos.

   Al contrario de lo que pudiera parecer, la utilización de métodos de enfoque directono es siempre una simplificación poco recomendable:

- Analíticamente:

1. Cada situación requiere la correcta selección del método de estimaciónadecuado. La utilización de métodos de información limitada o completaen modelos no simultáneos puede generar estimaciones con

indeseables propiedades analíticas. Por ejemplo, la utilización de MC2Een ausencia de simultaneidad genera estimaciones ineficientes.

2. Como se verá más adelante, ningún método de información limitada oinformación completa genera, para muestras pequeñas, estimacionesinsesgadas (cosa distinta será para muestras grandes) por lo que, enpresencia de muestras pequeñas, el hipotético beneficio derivado de suaplicación podría no compensar (1) ni el esfuerzo necesario para su

Page 132: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 132/176

Estadistica Inferencial

2013

132

desarrollo ni (2) la pérdida de eficiencia respecto al, eficiente en estoscasos, MCO.

- Operativamente

1. La utilización de MCO en cada ecuación por separado resulta un test

muy valioso para evaluar, al menos preliminarmente, y aún de de formaaislada, la especificación de cada ecuación.

2. Los métodos de estimación con información limitada, y especialmentelos métodos con información completa exigen completar al 100% latarea de especificación del modelo antes de abordar su estimación.Esta cuestión complica la programación y desarrollo de tareas encualquier proyecto de análisis econométrico ya que, en realidad, losprocesos de especificación, estimación y contraste no se realizan deforma lineal, sino que suelen abordarse como un “todo”, con frecuentes“vueltas atrás” y replanteamientos en cada una de los etapas.

3. Los métodos de estimación con información completa o limitada soncomplejos de desarrollar (generalmente implican métodos deestimación no lineal) exigiendo amplios recursos para la obtención de laestimación.

4. Por otro lado, estos métodos exigen importantes recursos adicionalesde mantenimiento y uso (cualquier cambio en una parte exige laactualización y revisión del modelo en su conjunto).

5. La utilización de métodos de estimación simultánea favorece elcontagio de todo el modelo ante problemas de especificación aisladosen una ecuación.

  Por todo lo anterior, puede entenderse que, en la práctica, los modelosmultiecuacionales se estiman en muchas ocasiones con métodos de enfoquedirecto aunque en puridad analítica puedan ser recomendables métodos deinformación limitada o completa. La rapidez, la sencillez y flexibilidad deactualización, mantenimiento y uso de modelos estimados con enfoques directoscompensan en ocasiones unas imprecisiones analíticas que, frecuentemente, ypara muestras pequeñas, no son muy significativas.

II.- Mínimos Cuadrados Ordinarios

  La aplicación de MCO en un sistema de ecuaciones sin simultaneidad genera (enausencia de otros problemas de especificación individual de cada ecuación)estimaciones insesgadas, consistentes y eficientes en tanto que su utilización enmodelos con simultaneidad (y, por tanto, con riesgo de regresores estocásticoscorrelacionados con las perturbaciones aleatorias) no garantiza la insesgadez

Page 133: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 133/176

Estadistica Inferencial

2013

133

(riesgo de estimaciones sesgadas) ni la consistencia (el sesgo no sólo se presentaen muestras pequeñas sino que se mantiene para muestras grandes).

   Así pues, y más allá de los matices prácticos anteriormente señalados queparecen apoyar las “ventajas relativas” de la utilización de estimadores directos, lo

cierto es que el estimador MCO sólo es analíticamente recomendable paramodelos sin simultaneidad o recursivos (también llamados triangulares1).

  Efectivamente, en este tipo de modelos las endógenas que actúan comoexplicativas en las ecuaciones no estarán relacionadas con las perturbaciones delas mismas lo cual impide que se generen problemas de sesgo en la estimación.(Se recomienda estudiar el ejemplo mencionado a pie de página2)

III.- Mínimos Cuadrados Indirectos

  En presencia de simultaneidad, una primera estrategia para resolver losindeseables efectos derivados de la aplicación directa de MCO (sesgo einconsistencia) es la utilización de la estrategia de estimación conocida como MCI.

  La utilización de MCI se realiza en dos pasos:

1. Se determina la forma reducida de cada ecuación, y se estiman conMCO los parámetros de la forma reducida (parámetros “π”) para cadaecuación en lugar de estimar los parámetros de su forma estructural.(parámetros “β” y “γ”).

2. Una vez estimados estos parámetros “π”, se determinan los parámetros“β” y “γ” de la forma estructural a partir de la solución al sistema deecuaciones que determina la relación aritmética entre unos y otros.

*1*

 B B  

  El método de estimación supone, efectivamente, un enfoque de informaciónlimitada. Para la estimación de cada ecuación no resulta necesario conocer eldetalle de la especificación del resto de las ecuaciones, si bien se requieredisponer de la “lista” de variables endógenas y exógenas del modelo en suconjunto (de otro modo resuelta imposible determinar la forma reducida de cadaecuación y su identificabilidad).

  Ventajas:

1 La denominación de triangulares hace referencia a la forma necesariamente “triangular” de la matriz de

coeficientes “gamma” de este tipo de modelos. 2 Gujarati, N. (2003). Pg. 737

Page 134: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 134/176

Estadistica Inferencial

2013

134

1. En la forma reducida de las ecuaciones todos los regresores (variablesdel lado derecho) son exógenas, es decir, no existen regresoresestocásticos (o al menos, no existen regresores estocásticosprovocados por la simultaneidad del modelo)3.

2. Por tanto, la estimación con MCO de los parámetros “π” sería

analíticamente adecuada. En concreto, las estimaciones MCO de estosparámetros de la forma reducida serían siempre consistentes. Además,y aunque no entraremos en detalle, puede garantizarse la insesgadez yla eficiencia asintótica de estas estimaciones en buena parte de lassituaciones analíticas más comunes.4 

3. Al abordarse por separado la estimación de cada ecuación se evitan losinconvenientes ya comentados derivados de la aplicación de métodossimultáneos.

  Limitaciones:

1. Una primera de orden general se refiere al tamaño muestral y alnúmero de regresores exógenos. Debe observarse que la aplicación deMCI requiere la estimación de las ecuaciones en la forma reducida locual sólo es posible si el número de datos excede el de exógenas (n>k).Esto no siempre sucede, en especial si los modelo son grandes(muchas ecuaciones) y, por tanto, implican un número considerable devariables exógenas que, con relativa facilidad, suele superar el tamañomuestral.

2. Conviene no perder de vista el objetivo final de la estimación que,evidentemente, consiste en obtener los parámetros de la formaestructural, no los de la forma reducida. Así pues, la aplicación de estemétodo para la estimación de los parámetros de cada ecuación implicaque las ecuaciones deben ser exactamente identificables ya que, deotro modo, no puede obtenerse una solución única para los parámetros“β” y “γ” a partir de las estimaciones de los parámetros “π”.

3. Los parámetros “β” y “γ” se obtienen como funciones continuas de losparámetros estimados “π”. Si bien los parámetros “π” estimados por MCO presentan buenas propiedades, no se garantiza que losparámetros de la forma estructural, generalmente funciones no linealesde los primeros, “hereden” esas buenas propiedades. En concreto, se

3 No debe obviarse que, más allá de la cuestión de la simultaneidad del modelo multiecuacional, una

determinada ecuación puede tener un problema de regresores estocásticos que nada tengan que ver con elmodelo multiecuacional. Por ejemplo, en una regresión puede aparecer como explicativa la endógenaretardada (que en términos del modelo multiecuacional se consideraría exógena) o una exógena puede presentar claros problemas de sesgo de medida … en estos dos casos, el modelo podría presentar problemas

derivados de la aparición de regresores estocásticos que nada tendrían que ver con la presencia o ausencia desimultaneidad en el modelo.

4 En concreto, puede demostrarse que para que estas dos propiedades se cumplan resulta necesario evitar endógenas desplazadas en la especificación y garantizar, así mismo, una clara distribución normal de las

 perturbaciones aleatorias.

Page 135: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 135/176

Estadistica Inferencial

2013

135

demuestra que estos parámetros heredan las propiedades asintóticas(consistencia y eficiencia asintótica) pero no las de las muestraspequeñas (eficiencia en muestras pequeñas o insesgadez). Así pues,cuando se trabaja con muestras pequeñas (lo cual resulta relativamentehabitual), debe saberse que las estimaciones con MCI seguirán siendosesgadas e ineficientes.

4. Al utilizar MCI no dispondremos, al menos fácilmente5, de la desviacióntípica estimada de los parámetros, una información que, comosabemos, resulta imprescindible para poner en marcha cualquier contraste de hipótesis relativa a estos parámetros. Evidentemente,podemos estimar la varianza de los parámetros “π”, pero no así la delos parámetros estructurales “β” y “γ” ya que, en realidad, no estimamosla ecuación estructural sino la reducida y, por lo tanto, no contamoscon una estimación de los residuos asociados a la perturbaciónaleatoria estructural “U”. Sin esos residuos y la correspondientevarianza estimada de la perturbación aleatoria no podemos computar las varianzas de los parámetros.

IV.- Mínimos Cuadrados en dos Etapas (MC2E)

  En presencia de simultaneidad, una segunda estrategia para resolver losindeseables efectos derivados de la aplicación directa de MCO (sesgo einconsistencia) es la utilización de la estrategia de estimación conocida comoMC2E.

  El procedimiento consiste en utilizar MCO sobre la forma estructural pero, antes deello, reemplazar los valores reales originales de las variables explicativas de cadaecuación (es decir, las endógenas que aparecen en el lado derecho de cadaecuación) por sus valores MCO estimados en la forma reducida (de otro modo, nopodríamos plantear la estimación de la forma reducida).

  Para ilustrar el procedimiento operativo de MC2E, supongamos el siguientemodelo simultáneo con 2 ecuaciones:

iiiii

iiiii

U Y  X  X Y 

U Y  X  X Y 

21213231212

12122121111

     

      

5 Gujarati (Econometría, 2003, 4º Edición, pg. 743) señala que no resulta sencillo estimar estas desviacionestípicas a partir de las desviaciones obtenidas para los parámetros de la forma reducida y sólo cabe unadeterminación aproximada para muestras grandes.

Page 136: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 136/176

Estadistica Inferencial

2013

136

Para la primera ecuación, antes de proceder a la estimación directa con MCO,reemplazamos los valores originales de la variable Y2i (un regresor estocásticopotencialmente relacionado con U1i) por una estimación obtenida aplicando MCOsobre su forma reducida, es decir:

iiiii

iiii

iiiii

V  X  X  X Y 

 X  X  X Y 

V  X  X  X Y 

23232221212

3232221212

23232221212

ˆˆˆˆ

ˆˆˆˆ

   

   

   

 

 Así, pues, la ecuación a estimar sería ahora:

iiiiii U V Y  X  X Y  122122121111ˆˆ        

o lo que es igual,

iiiiii V U Y  X  X Y  21212122121111ˆˆ         

  Como puede observarse, estamos nuevamente ante una estimación coninformación limitada ya que, nuevamente, no necesitamos conocer laespecificación concreta de cada ecuación pero sí la lista de regresores (X) yendógenas (Y) del modelo.

  Ventajas:

1. De nuevo, como ya ocurriera con MCI, se aborda la estimación aisladade cada ecuación lo que, operativamente, supone una ventaja y evita elcontagio a todo el modelo de los errores presentes en una ecuación.

2. La utilización de los valores estimados de las explicativas evita lapresencia de regresores estocásticos relacionados con la perturbaciónaleatoria; las variables explicativas originales son aleatorias pero susvalores estimados procedentes de la forma reducida no lo son6.

3. Así pues, en principio cabe pensar que la utilización de estimadoresMC2E en presencia de simultaneidad produce estimaciones

6 Esto es, en realidad, mentira. Es cierto que el valores estimado de las explicativas no depende de la perturbación aleatoria “V” sino exclusivamente de regresores deterministas “X”. Sin embargo, debe

observarse que esas estimaciones son, efectivamente, combinaciones lineales de las exógenas “X” pero

también de los parámetros estimados para “π”. Los parámetros reales poblacionales “π” no son variablesaleatorias pero sus estimaciones sí lo son. Así pues, en realidad la estimación de las endógenas a partir de laforma reducida es también aleatoria y probablemente correlacionada con la nueva perturbación aleatoriatransformada de la ecuación estructural. Sin embargo, puede demostrarse que esa relación es ya indirecta y siexiste, muy leve y, por tanto, con escasos efectos (o nulos para muestras grandes) sobre las estimacionesMCO de la nueva forma estructural.

Page 137: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 137/176

Estadistica Inferencial

2013

137

consistentes (es decir, evita el problema de los regresoresestocásticos). No obstante, como ya ocurriera con MCI, la insesgadez yla eficiencia sólo se lograrán para muestras grandes, sin que puedagarantizarse para estimaciones con conjuntos de datos reducidos.

4. Sin embargo, además de compartir con MCI estas buenas propiedadesasintóticas, la estimación MC2E presenta ventajas adicionales:

a. Resulta más sencillo de aplicar dado que no tenemos queresolver el sistema de ecuaciones de la segunda etapa de MCI;el método sólo requiere dos sencillas estimaciones sucesivaspor MCO.

b. No requiere que la ecuación sea exactamente identificable;puede utilizarse también por tanto para ecuacionessuperidentificables.

c. Es más robusto que el método MCI ante problemas deespecificación o multicolinealidad en las ecuaciones.

d. Aunque en muestras pequeñas las ventajas de ambosestimadores se desvanecen, se ha demostrado que, en estoscasos, el comportamiento de MC2E es relativamente mejor queel de MCI.

e. En contraste con MCI, la aplicación de MC2E sí permitedisponer de una estimación de las varianzas de los parámetros.Efectivamente, en la segunda etapa realizamos una estimaciónde los parámetros estructurales “β” y “γ” y, por tanto,

disponemos de unos residuos7 derivados de esta estimaciónque nos permiten calcular las desviaciones típicas de losparámetros estimados.

  Limitaciones:

1. Como ya ocurriera con MCI, el procedimiento de MC2E exige laestimación de la forma reducida de cada ecuación lo cual sólo esposible si n>k.

7 En realidad, y continuando con el ejemplo utilizado previamente, debe observarse que, para la primera

ecuación, contamos con una estimación de la perturbación “transformada”iii V U U  2121

*

1ˆ  que no

corresponde exactamente a la perturbación original “U1i”. Un procedimiento que permite aproximar el residuo

correspondiente a la perturbación original consiste en recalcular los residuos de cada ecuación utilizando los parámetros estimados en MC2E pero aplicados sobre los datos reales de Y i, no sobre sus estimaciones de laforma reducida (es decir, usar las estimaciones de la forma reducida para el cómputo de los parámetros, perono para el cálculo de los residuos).

Page 138: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 138/176

Estadistica Inferencial

2013

138

V.- UN breve apunte sobre Mínimos Cuadrados en tres Etapas(MC3E)

  Como ya se ha dicho anteriormente, en los modelos multiecuacionales puedeexistir relación entre perturbaciones aleatorias correspondientes a distintasecuaciones; de hecho, la presencia de simultaneidad entre las ecuaciones delmodelo se manifiesta, necesariamente, en la existencia de relaciones entreperturbaciones. Así, por ejemplo, considere el modelo utilizado previamente en unejemplo:

iiiii

iiiii

U Y  X  X Y 

U Y  X  X Y 

21213231212

12122121111

     

      

En este modelo, resulta clara la siguiente cadena causal:

0),(0),( 0),( 121211 iiiiii U Y CovY Y Cov yU Y Cov  

y dado que:0),( 22 ii U Y Cov  

entonces:

0),( 21 ii U U Cov 

  Efectivamente, tal y como se indicó en la introducción y formulación de losmodelos multiecuacionales, dado que la simultaneidad es una característica casiesencial de un sistema multiecuacional, debe considerarse analíticamente laposible existencia de relaciones entre perturbaciones aleatorias de distintasecuaciones. Esa relación, en todo caso, debía ser contemporánea y constantepara “i”; hablábamos así de “homocedasticidad interecuacional”. 

  Precisamente denominábamos Σ a la matriz que contenía, en su diagonalprincipal, las varianzas homocedásticas de la perturbación de cada ecuación y,

fuera de la diagonal principal, las covarianzas contemporáneas y constantes entreperturbaciones de distintas ecuaciones.

Page 139: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 139/176

Estadistica Inferencial

2013

139

 

 

 

 

 gg 

 g 

iii U U  E U Cov

 

  

   

2221

11211

   Aunque tanto MCI como MC2E consideran la existencia de simultaneidad en losmodelos multiecuacionales y tratan de evitar los potenciales efectos negativos deuna estimación MCO directa, lo cierto es que ninguno de los dos métodosconsidera de forma explícita, en el cálculo de los parámetros, la relación entre lasperturbaciones aleatorias de las distintas ecuaciones. La característica diferencialdel método de estimación MC3E es, precisamente, la de integrar explícitamente elcálculo de esa relación en el proceso de estimación de los parámetros.

  La aplicación específica del método exige, como es lógico, disponer de una

estimación previa de Σ, una estimación que se deriva de la estimación previa delmodelo mediante MC2E. Así pues, las dos primeras etapas del método MC3E son,en realidad, coincidentes con MC2E.

  Una vez estimadas las ecuaciones de forma individual con MC2E, se utilizan losresiduos de cada ecuación para estimar varianzas y covarianzas de la matriz Σ.

  En el último de los pasos, y una vez que disponemos de esa matriz Σ, la ideaconsiste en aplicar MCG sobre el modelo en su forma estructural. Para ello, y dadoque debe abordarse la estimación conjunta de todos los parámetros del modelo,se “rediseñan” las matrices de datos, tanto en lo que se refiere al “lado izquierdo”

del modelo (los valores de las endógenas de todas las ecuaciones) como en loque se refiere al lado derecho (valores de las exógenas y de las endógenasexplicativas de cada ecuación). Este “rediseño” de las matrices del modelo trata,insistimos, de poder estimar los parámetros de forma simultánea, introduciendo enese cálculo, la información contenida en la matriz de relaciones entreperturbaciones Σ. Dado que el objeto de este documento no es otro que situar deforma muy general las características diferenciales del método MC3E, no sedetalla la forma en que han de “apilarse” las matrices originales, pero puedeencontrarse una referencia detallada al procedimiento en el libro “ModelosEconométricos” de Antonio Pulido (Ed. Pirámide), en cualquiera de sus versiones. 

  Ventajas:

1. La estimación con MC3E no supone claras diferencias en términos desesgo y consistencia si bien mejora la eficiencia asintótica de losestimadores respecto a MC2E siempre y cuando persistan relacionessignificativas entre las perturbaciones aleatorias.

  Limitaciones:

Page 140: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 140/176

Estadistica Inferencial

2013

140

1. La primera y más evidente es que el procedimiento es algo másengorroso que el necesario para la aplicación de MCI y MC2E, es decir,como ya se dijera en la introducción, consume muchos más recursosque la aplicación de los otros métodos

2. El segundo inconveniente reside en la estimación conjunta de todos los

parámetros. Esta estimación conjunta requiere que la especificaciónesté perfectamente determinada para todas las ecuaciones del modelo.

3. Por otro lado, si bien la matriz Σ sirve como vínculo entre ecuacionespara representar la simultaneidad de una forma bien elaborada,también sirve de vía de contagio e los errores presentes en cadaecuación. Es decir, los errores de especificación o de medición dedatos no sólo afectan a la ecuación en la que se localizan sino que, encierta medida, también al resto de parámetros del modelo. Por esemotivo, este tipo de método de estimación simultáneo resultaespecialmente indicado para modelos con escaso riesgo de

especificación (ya contrastados por experiencias previas) y con datosconfiables.

4. Además, puede comprobarse analíticamente que la estimaciónmediante MC3E, en concreto la necesidad de invertir la matriz Σ ,requiere que el número de datos exceda al de ecuaciones (n>g) por loque no puede utilizarse en modelos con numerosas ecuaciones. ;por otro lado, antes de llevar a cabo la última etapa de MC3E, la estimaciónprevia MC2E exige que (n>k). En definitiva, y supuesta la limitaciónhabitual de las muestras (“n” moderado o pequeño), el método sólopuede aplicarse en modelos “pequeños”, es decir, con pocasecuaciones (g) y pocas exógenas (k).

5.1.-Prueba de Z para diferencia entre dos proporciones

Las  pruebas de proporciones son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de doso más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de  población. Laspruebas se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporciónverdadera de la población si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse enla diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La

diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que esrealmente verdadera.

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras,

los datos muestrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones sepueden utilizar para evaluar afirmaciones con respecto a:

1) Un parámetro de población único (prueba de una muestra) 

2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y

3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para tamaños grandes de muestras, ladistribución de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede enel caso de pruebas de medias de una y dos muestras.

Prueba de proporciones de una muestraCuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.

Page 141: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 141/176

Estadistica Inferencial

2013

141

Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De estemodo, los valores estadísticos de prueba miden la desviación de un valor  estadístico de muestra a partir de un valor propuesto. Y ambaspruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la formacorno se obtiene la desviación estándar de la distribución de muestreo.

Esta prueba comprende el cálculo del valor estadístico de prueba Z

Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significación seleccionado.

Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.

Ejemplo ilustrativo 

En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025,respecto a la alternativa de que la proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestraaleatoria de 600 estudiantes universitarios revela que 200 de ellos t rabajan. La muestra fue tomada de 10000 estudiantes. 

Los datos son:

Page 142: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 142/176

Estadistica Inferencial

2013

142

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5%. Se remplaza valoresen la siguiente fórmula:

Los cálculos en Excel se muestran en la siguiente figura:

Page 143: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 143/176

Estadistica Inferencial

2013

143

El gráfico elaborado en Winstats y Paint se muestra a continuación:

Decisión: 

Prueba de proporciones de dos muestrasEl objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cualespresentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferenciadividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotanúnicamente la variación casual  producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0).El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 esaceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.

La hipótesis nula en una prueba de dos muestras es

Page 144: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 144/176

Estadistica Inferencial

2013

144

5.2.-Prueba de Z para la diferencia entre proporciones

Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que delparalelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nuevaenseñanza de la Estadística es la misma en los dos paralelos?.

Los datos son:

Las hipótesis son

Page 145: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 145/176

Estadistica Inferencial

2013

145

Calculando la proporción muestral se obtiene:

Los cálculos en Excel se muestran en la siguiente figura:

Page 146: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 146/176

Estadistica Inferencial

2013

146

El gráfico elaborado en Winstats y Paint se muestra a continuación:

Decisión: 

Page 147: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 147/176

Estadistica Inferencial

2013

147

Prueba de proporciones de k muestrasLa finalidad de una prueba de k muestras es evaluar l a aseveración que establece que todas las k muestras independientes provienen depoblaciones que presentan la misma proporción de algún elemento. De acuerdo con esto, las hipótesis nula y alternativa son

En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con frecuencias observadas "o"(las que se observa directamente) yfrecuencias esperadas o teóricas "e" (las que se calculan de acuerdo a las leyes de  probabilidad).

Por lo tanto el valor estadístico de prueba para este caso es la prueba  ji cuadrado o conocida también como chi cuadrado 

Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que depende del número de gradosde libertad asociados a un determinado problema.

Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a partir de una tabla de ji cuadrado, se debeseleccionar un nivel de significación y determinar los grados de libertad para el problema que se esté resolviendo.

Page 148: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 148/176

Estadistica Inferencial

2013

148

Ejemplos ilustrativos: 

Determine el número de grados de libertad y obtenga el valores crítico en el niveles 0,05 se significación.

Solución: 

Los grados de libertad se calculan aplicando la fórmula:

Page 149: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 149/176

Estadistica Inferencial

2013

149

Los cálculos en Excel se muestran en la siguiente figura:

2) La siguiente tabla muestra las frecuencias observadas y las frecuencias esperadas al lanzar un dado 60 veces. Contrastar la hipótesis deque el dado es bueno, con un nivel de significación de 0,01.

Page 150: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 150/176

Estadistica Inferencial

2013

150

Cara del dado 1 2 3 4 5 6

Frecuencia observada 6 8 9 15 14 8

Frecuencia esperada 10 10 10 10 10 10

Solución: 

Los cálculos en Excel se muestran en la siguiente figura:

Page 151: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 151/176

Estadistica Inferencial

2013

151

El gráfico elaborado en Winstats y Paint se muestra a continuación:

Decisión: 

Page 152: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 152/176

Estadistica Inferencial

2013

152

5.3.-Prueba para la diferencia de n proporciones

Pruebas de hipótesis de una y dos muestras

 Al terminar la unidad usted podrá:

Hipótesis estadísticas

Muchas veces, el problema al que se enfrenta un científico, ingeniero , o profesional, no es tanto la estimaciónde un parámetro poblacional, sino más bien la formación de un procedimiento de decisión que se base en lainformación proporcionada por la muestra. El profesional o ingeniero postula o conjetura algo acerca del valor que puede asumir cierto parámetro

Una hipótesis estadística es una aseveración o conjetura con respecto a una o más poblaciones

La verdad o falsedad de una hipótesis estadística, nunca se sabe con certeza, a menos que se examine todala población. En su lugar, se toma una muestra aleatoria de esa población de interés y se utiliza la informaciónde la muestra para proporcionar evidencias que apoyen o no la hipótesis.La evidencia de la muestra que es consistente con la hipótesis conduce al no rechazo de la hipótesis,mientras que si es inconsistente con la hipótesis conduce al rechazo de la misma.Debe quedar claro que la aceptación de una hipótesis implica que los datos de la muestra no dan la suficienteevidencia para rechazarlaGeneralmente el científico se interesa en apoyar con fuerza una opinión, por lo tanto desea llegar a la opiniónen forma de rechazo

Ejemplo 6.1 Si un investigador en medicina desea mostrar fuertes evidencias a favor de que el fumar aumenta el riesgo de contraer cáncer, la hipótesis a probar debe ser de la forma “no hay aumento en elriesgo de contraer cáncer como producto de fumar” Como resultado, seguramente la opinión se alcanza por medio de un rechazo.

La estructura de la prueba de hipótesis se formula con el uso de una hipótesis nula, que se denota con Ho yes la hipótesis a probar. El rechazo de Ho conduce a la aceptación de la hipótesis alternativa H1Una hipótesis nula siempre se establece de modo que el parámetro asuma un valor exacto 

5.4.-Prueba de independencia

PRUEBA DE INDEPENDENCIA

En el análisis de independencia se considera que la muestra, una vez escogida, se clasifica según los criteriosde interés; por ello se supone que las muestras provienen de una población.

En las aplicaciones estadísticas es frecuente interesarse en calcular si dos variables de clasificación, ya seacuantitativa o cualitativa, son independientes o si están relacionadas. En situaciones como las siguientes, se

 puede estar interesado en determinar si dos variables están relacionadas:

¿Están relacionados los hábitos de lectura con el sexo del lector?¿Están relacionadas las calificaciones obtenidas con el número de faltas?¿Es independiente la opinión sobre la política exterior de la política partidista?¿Es independiente el sexo de una persona de su preferencia en colores?¿Está relacionado el sexo con tener una educación universitaria?¿Están relacionadas las enfermedades del corazón con el tabaquismo?

Page 153: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 153/176

Estadistica Inferencial

2013

153

¿Son independientes el tamaño de una familia y el nivel de educación de los padres?¿Está relacionado el desempleo con el incremento de la criminalidad?¿El precio está asociado con la calidad de un producto electrodoméstico?¿El estado nutricional esta asociado con el desempeño académico?

Otra forma de expresar el hecho de que dos variables sean independientes, es diciendo, que no se afectanentre si; esto es que no están relacionadas o asociadas.

Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y distribuye tres tiposde cerveza: ligera, clara y oscura. En un análisis de segmentación de mercado para las tres cervezas, el grupode investigación encargado ha planteado la duda de si la preferencia para las tres cervezas es diferente entrelos consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género delconsumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin embargo, si la

 preferencia depende del género del consumidor, se ajustarían las promociones para tener en cuenta losdistintos mercados meta.Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera, clara y oscura) esindependiente del genero del consumidor (hombre, mujer). Las hipótesis para esta prueba de independenciason:

Ho: La preferencia de la cerveza es independiente del género del consumidor 

Ha: La preferencia de la cerveza no es independiente del género del consumidor 

Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de identificar a la población,consumidores hombres y mujeres, se puede tomar una muestra y preguntar a cada persona que diga su

 preferencia entre las cervezas modelo.Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por ejemplo una persona puedeser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que prefiere la cerveza ligera [celda (2,1)], unamujer que prefiere la cerveza oscura [celda (2,3)] y así sucesivamente. Como en la lista aparecen todas lascombinaciones posibles de predilección de cerveza y género, en otras palabras aparecen todas lascontingencias posibles, a la tabla se le llama tabla de contingencia.

Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de cerveza. Después desaborear cada una, se les pide expresar su preferencia o primera alternativa. La tabulación cruzada de lasiguiente tabla 2 resume las respuestas obtenidas. Observamos que, los datos para la prueba de independenciase agrupan en términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas de lamuestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la cervezaclara, 20 fueron hombres que prefirieron la cerveza oscura, y así sucesivamente.Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o categorías.

Cerveza preferida

GéneroLigera Clara Oscura Total

Hombre 20 40 20 80Mujer 30 30 10 70Total 50 70 30 150

Cerveza preferidaLigera Clara Oscura

Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)Mujer Celda (2,1) Celda (2,2) Celda (2,3)

Page 154: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 154/176

Estadistica Inferencial

2013

154

Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia entre la preferencia decerveza y el género del consumidor, podemos usar la distribución ji cuadrada para determinar si existe unadiferencia significativa entre la frecuencia observada y la esperada.Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el siguiente razonamiento.Primero suponemos que es verdadera la hipótesis nula, de independencia entre la cerveza preferida y elgénero del consumidor. A continuación observamos que en toda la muestra de 150 consumidores, hay 50 que

 prefieren la cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la conclusión esque de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la clara y 30/150 = 1/5la oscura. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y mujeres. Así bajo la hipótesis de independencia, esperaríamos que lamuestra de 80 consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70 consumidoras mujeres

 produce las frecuencias esperadas que aparecen en la tabla.

Sea la frecuencia esperada en la categoría del renglón i y la columna  j de la tabla de contingencia. Conesta notación reconsideremos el cálculo de la frecuencia esperada para los hombres (renglón i = 1) que

 prefieren la cerveza clara (columna  j = 2) esto es, la frecuencia esperada . Apegándonos al esquemaanterior para el cálculo de las frecuencias esperadas, podemos demostrar que

= (7/15) 80 = 37.33Esta ecuación se puede escribir como sigue

= (7/15) 80 = (70/150) 80 = 37.33

Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad total de individuos(hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y 150 es el tamaño de la muestratotal. En consecuencia vemos

Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias esperadas de una tabla decontingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece alos cálculos de bondad de ajuste.

Específicamente, el valor de basados en

ije

2,1e

2,1e

2,1e

muestraladetamaño

columnaladetotal renglóndel total e

)2()1(2,1

muestraladetamaño

 jcolumnaladetotal irenglóndel Total eij

)()(

2  Cerveza preferida

GéneroLigera Clara Oscura Total

Hombre 26.67 37.33 16.00 80Mujer 23.33 32.67 14.00 70Total 50.00 70.00 30.00 150

Page 155: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 155/176

Estadistica Inferencial

2013

155

las frecuencias observadas y esperadas se calcula como sigue:

Oi = Valor observado en la i-ésimo celda.Ei = Valor esperado en la i-ésimo celda.K = Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene una distribución jicuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más paratodas las categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada.

Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia de cerveza esindependiente del género de quien la bebe se ven en la tabla.

La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina multiplicando lacantidad de renglones menos 1 por la cantidad de columnas menos 1. Como tenemos dos renglones y tres

columnas, entonces (2  – 1) (3  –  1) = (1) (2) = 2 grados de libertad para la prueba de independencia entre

cerveza y género del consumidor. Con = .05 como nivel de significancía de la prueba, buscamos en la

tabla de ji cuadrada y nos da un valor = 5.99. Observe que estamos usando el valor de la colasuperior, porque rechazaremos la hipótesis nula sólo si las diferencias entre frecuencias observadas y

esperadas producen un valor grande de . En el ejemplo =6.13 es mayor que = 5.99. Por consiguiente, rechazaremos la hipótesis nula de independencia y concluimos que la cerveza preferida no esindependiente del género del consumidor, es decir, la preferencia para las tres cervezas es diferente entre losconsumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a los consumidores

 para ajustar las promociones y la publicidad, teniendo en cuenta estas diferencias.

 

2

05.  

2   2   2  

Género CervezaHombre ligera 20 26.67 -6.67 44.4889 1.66812523Hombre clara 40 37.33 2.67 7.1289 0.19096973Hombre Oscura 20 16 4 16 1Mujer ligera 30 23.33 6.67 44.4889 1.90693956Mujer clara 30 32.67 -2.67 7.1289 0.21820937Mujer Oscura 10 14 -4 16 1.14285714

6.12710104

o f   e f   )( eo f   f   2)( eo f   f   ijeo e f   f   /)( 2

2  

i e

eo

i

ii

 f  

 f   f  

1

2

2  

Page 156: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 156/176

Estadistica Inferencial

2013

156

5.5.-Prueba de contingencia

PRUEBAS NO PARAMÉTRICAS

Distribución chi-cuadrada ( 2)

La distribución chi cuadrada es toda una familia de distribuciones. Existe una distribución chi-cuadrada paracada grado de libertad. La Figura 1 muestra que a medida que se incrementan los grados de libertad ladistribución se vuelve menos sesgada. Las aplicaciones más comunes de la distribución chi-cuadrada son (1)

 pruebas de bondad de ajuste y (2) pruebas de independencia.

A.  Pruebas de bondad de ajuste

Medidas sobre que tan cerca se ajustan los datos muestrales observados a una forma de distribución particular  planteada como hipótesis. Si el ajuste es razonablemente cercano, puede concluirse que si existe la forma dedistribución planteada como hipótesis.

Prueba chi-cuadrada

1 i 

i i 2 

E O  (1.1)

donde k : Número de categorías o clasesk-m-1: grados de libertad donde m es el número de parámetros a estimar.

1.Prueba para un ajuste uniforme. Juan Pérez, director de Mercadeo de Alden de Juárez, tiene laresponsabilidad de controlar el nivel de existencias para cuatro tipos de automóvil vendidos por la firma. Enel pasado, ha ordenado nuevos automóviles bajo la premisa de que los cuatro tipos son igualmente populares

y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto más difícilesde controlar, y Juan considera que debería probar su hipótesis respecto a una demanda uniforme. Sus hipótesisson:

 H 0: La demanda es uniforme para los cuatro tipos de autos. H 1: La demanda no es uniforme para los cuatro tipos de autos.

La Tabla 1.1 muestra la expectativa uniforme para una muestra de 48 autos vendidos durante el último mes

Tabla 1.1 Registro de Ventas de Alden de Juárez Tipo de auto Ventas observadas Ventas esperadas

Ka 15 12Fiesta 11 12

Focus 10 12Clio 12 12

17 .1 

12 

12 12 

12 

12 10 

12 

12 11 

12 

12 15 2 2 2 2 

2   

Page 157: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 157/176

Estadistica Inferencial

2013

157

Debido a que no hay parámetros que estimarse el número de grados de libertad es k-1 = 3 grados de libertad.Si Juan deseara probar al nivel del 5%, se encontraría, como lo muestra la Figura 1.2, que

815 .7 2 

3 ,05 .0   

Regla de decisión: " 815 .7 2 

.815 .7 2 

"   siRechazar sirechazar  No  

Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se rechaza.

B.Tablas de contingencia. Una prueba de independencia

La distribución chi-cuadrada también permite la comparación de dos atributos para determinar si existe unarelación entre ellas.

Ejemplo. Paty Alvarado es la directora de investigación de Plaguicidas de Juárez. En su proyecto actual Patydebe determinar si existe alguna relación entre la clasificación de efectividad que los consumidores asignan aun nuevo insecticida y el sitio (urbano o rural) en el cual se utiliza. De los 100 consumidores a quienes se leaplicó la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales. La Tabla 1.2 resume las clasificacioneshechas por los consumidores.

Tabla 1.2 Tabla de contingencia de Plaguicidas de JuárezClasificación Urbano Rural Total

Arriba del promedio 2023.3

117.75

31

Promedio 4036

812

48

Debajo del promedio 1515.8

65.25

21

Total 75 25 100

 H 0: La clasificación y la ubicación son independientes. H 1: La clasificación y la ubicación no son independientes.

76 .3 

25 .5 

2 25 .5 6 

8 .15 

2 8 .15 15 

12 

2 12 8 

36 

2 36 40 

75 .7 

2 75 .7 11 

3 .23 

2 3 .23 20 2 

 

 La prueba tiene (r   –  1)(c  –  1) = (3 -1)(2  –  1) = 2 grados de libertad. Si Paty fija = 10%,

605 .4 2 

2 ,10 .0  , la hipótesis nula no se rechaza.

Prueba del signo

Una prueba no paramétrica utilizada comúnmente para tomar decisiones en relación a diferencias entre poblaciones como contraparte de la distribución t , la cual requiere el supuesto de normalidad de ambas poblaciones. La prueba de signos es útil cuando no se cumple este supuesto.

Se supone que se tienen datos antes y después para una muestra y se desean comparar estos conjuntos dedatos correspondientes. Se hace restando las observaciones por pares, y se anota el signo algebraicoresultante. No es importante la magnitud de la diferencia, sino solo si resulta un signo más o un signo menos.

Page 158: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 158/176

Estadistica Inferencial

2013

158

La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto, entonces unsigno más y un signo menos son igualmente probables. La probabilidad de que ocurra cualquiera es de 0.50.Una prueba de dos extremos es:

 H 0: m = p

 H 1: m  p

en donde m y p son los números de signos menos y de signos más, respectivamente. Una prueba de un soloextremo es:

 H 0: m = p

 H 1: m > p

o

 H 0: m = p

 H 1: m < p

Ejemplo. Un analista de mercado desea medir la efectividad de una campaña promocional del producto de suempresa. Antes de la campaña, selecciona 12 tiendas minoristas y registra las ventas del mes. Durante elsegundo mes se termina la campaña promocional y se registran de nuevo las ventas. La Tabla 1.3 muestra losniveles de ventas, junto con el signo algebraico que resulta cuando las ventas del segundo mes se restan de lasdel primer mes.

Tabla 1.3 Ventas para doce tiendas minoristasTienda Antes Después Signo

1 $4200 $4000 +2 $5700 $6000 -3 $3800 $3800 04 $4900 $4700 +5 $6300 $6500 -6 $3600 $3900 -7 $4800 $4900 -8 $5800 $5000 -9 $4700 $4700 0

10 $5100 $5200 -11 $8300 $7200 +12 $2700 $3300 -

Se desea probar la hipótesis de que la promoción incrementó las ventas con un nivel de significancia del 5%.Esta es una prueba de extremo derecho, como se muestra enseguida:

 H 0: m  p

 H 1: m > p

Pregunta: ¿Qué haría que se rechazara la hipótesis nula?1)  un número significativamente grande de signos menos2)  un número significativamente pequeño de signos más

 Número de signos menos = 6 Número de signos más = 4Los valores que resultan en una diferencia de cero se eliminan.La Tabla de Distribución Binomial establece que la probabilidad de seis o más signos menos es:

3770 .0 

6230 .0 1 

 ) 5 X ( P 1  ) 5 .0 ,10 n | 6 m ( p 

 

 

Este valor de 0.3770 es la probabilidad de obtener seis o más signos menos ( o cuatro o menos signos más)si la probabilidad de ocurrencia de cualquier signo es de = 0.5. Se nota que si el número de signos menosfuera inusitadamente grande, se rechazaría la hipótesis nula. Sin embargo, 6 no es un número grande. La

 probabilidad de su ocurrencia es mayor que un de 0.5%, el evento de 6 signos menos no se considera

Page 159: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 159/176

Estadistica Inferencial

2013

159

grande, y la hipótesis nula de que  H 0: m   p no se rechaza, por lo tanto no se puede considerar que la promoción haya sido exitosa.

Valor de Z para prueba del signo con muestras grandes (n  30 )

n 5 .0 

n 5 .0 5 .0 k Z 

 

La prueba de rachas

Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las cuales se confía son de pocouso o de ningún uso. Para comprobar la aleatoriedad se utiliza una prueba de rachas.

Prueba de rachas. Prueba no paramétrica de aleatoriedad en el proceso de muestreo.

Racha. Una serie continua de uno o más símbolos.

Ejemplo. Suponga que se seleccionan los empleados para un programa de entrenamiento. Si la selección nodepende de si el empleado es de sexo masculino (m) o femenino ( f ), se esperaría que el género fuera un evento

aleatorio. Sin embargo, si se detecta algún patrón en el género, se puede asumir que la aleatoriedad estáausente y que la selección se hizo, por lo menos en parte, con base en el género de un trabajador. Si existe unnúmero inusualmente grande o inusualmente pequeño de rachas, se sugiere un patrón. Así, por ejemplo

 _____________________________________________ mmm ffffff mmm

 _____________________________________________ 

1 2 3 _____________________________________________ 

Tres rachas existen en esta muestra. Tres hombres , seguidos de seis mujeres y luego tres hombres.Aparentemente existe ausencia de aleatoriedad. Consideremos ahora que el orden de selección es

 _______________________________________ m f m f m f m f m f m f m f m f 

 _______________________________________ 

1  2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 _______________________________________ De nuevo, parece existir un patrón que produce un número inusualmente grande de 16 rachas independientes.

Detección de un patrón. Si se presentan muy pocas o demasiadas rachas, puede estar ausente la aleatoriedad.Un conjunto de hipótesis para probar es:

 H 0: Existe aleatoriedad en la muestra. H 1: No existe aleatoriedad en la muestra.

Para probar la hipótesis se debe determinar si el número de rachas r  es demasiado grande o demasiado pequeño. Las Tablas de valores críticos de r en la prueba de rachas muestran el número de rachas si es 5%.Supongamos ahora que las selecciones fueron:

 __________________________________________ m fff mmm ff mmm

1 2 3 4 5 __________________________________________ 

Las selecciones parecen más aleatorias porque no existe patrón evidente. Se nota que n1 = 7 es el número dehombres y n2 = 5 es el número de mujeres.

La tabla M1 muestra el número crítico mínimo de rachas para un valor de de 5%.. Si el número derachas es igual o menor que el valor mostrado en la tabla M1, se sugiere que al nivel del 5% hay muy pocasrachas como para confirmar la hipótesis nula de aleatoriedad. Debido a que n1 = 7 y n2 = 5, se halla el valor 

Page 160: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 160/176

Estadistica Inferencial

2013

160

críticamente bajo que es 3. Debido a que el número de rachas excede este mínimo, entonces no hay unnúmero significativamente bajo de rachas como para garantizar el rechazo de la hipótesis nula. La tabla M2

 proporciona valores críticamente altos para r . si el número de rachas en una muestra es igual o mayor queestos valores, se puede concluir que existe un número extremadamente grande de rachas, lo que sugiere laausencia de aleatoriedad. Para n1 = 7 y n2 = 5, la tabla M2 revela que el número máximo de rachas es 11. Si elnúmero de rachas es superior a 11, existen demasiadas como para sustentar la hipótesis de aleatoriedad.Debido a que el número de rachas es menor que 11, no es significativamente alto y no se rechaza la hipótesisnula al nivel del 5%.

Uso de la mediana como medida para bifurcar los datos

Ejemplo. Se asumen niveles de producción diarios en una mina de carbón seleccionada para un estudioestadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32, 40, 37, y 60 toneladas. La mediana de 37

 puede utilizarse como valor de referencia. Las observaciones caen o por arriba (A) o por abajo (B) de 37, produciendo 8 rachas de:

 ___________________________________________________ 31 57 52 22 24 59 25 29 27 44 43 32 40 60

 ___________________________________________________ B A A B B A B B B A A B A A1 2 3 4 5 6 7 8

 ___________________________________________________ Con n1=7  para B y n2 = 7 para A, la tabla M revela valores críticos de 3 y 13 rachas. Debido a que hay 8rachas, se asume que hay aleatoriedad y no se rechaza la hipótesis nula.

Prueba U de Mann-Whitney

Es la contraparte no paramétrica de la prueba t para muestras independientes. No requiere del supuesto de quelas diferencias entre las dos muestras estén distribuidas normalmente.

Ejemplo. Suponga que una fábrica de cerámicas desea comparar el tiempo que toma a las piezas de barroenfriarse después de haber “ardido” en el horno mediante dos métodos diferentes.  

Los alfareros queman 12 piezas utilizando el método 1, y 10 utilizando el método 2. El número de minutosnecesarios para que cada pieza se enfríe es el siguiente:

Método1 27 31 28 29 39 40 35 33 32 36 37 43Método 2 34 24 38 28 30 34 37 42 41 44

Tabla 1.4 Rangos de tiempos de enfriamientoMétodo 1 Rango Método 2 Rango

24 127 228 3.5 28 3.529 5

30 631 732 833 9

34 10.534 10.5

35 1236 1337 14.5 37 14.5

38 1639 1740 18

41 19

Page 161: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 161/176

Estadistica Inferencial

2013

161

42 2043 21

44 22R 1=130 R 2=123

Se calcula el estadístico de Mann-Whitney para cada muestra de la ecuación, así:

52 123 2 

 ) 1 10 ( 10  ) 10  )( 12 ( U 

68 130 2 

 ) 1 12 ( 12  ) 10  )( 12 ( U 

R 2 

1 n ( n n n U 

R 2 

 ) 1 n ( n n n U 

1 1 

2 1 2 

1 1 

2 1 1 

 

Se nota que U 1+ U 2 = n1n2 proporciona un chequeo rápido de su aritmética.Media y Desviación estándar de la distribución muestral para la Prueba U de Mann-Whitney

17 .15 12 

 ) 1 10 12  )( 10  )( 12 ( 

12 

 ) 1 n n ( n n 

60 2 

 ) 10  )( 12 ( 

n n 

2 1 2 1 

2 1 

 

Valor de Z para normalizar la prueba U de Mann-Whitney

u 1 U 

 

Prueba de dos extremos: Probar la hipótesis de que los tiempos promedio de enfriamiento de enfriamiento delmétodo 1 y del método 2 son los mismos

2 1 1 

2 1 0 

: H 

: H 

 

Utilizando arbitrariamente U 2, se tiene que

053 .0 17 .15 

60 52 Z   

Si  = 10%, la regla de decisión es “ No rechazar si -1.65   Z   1.65. Rechazar si Z < -1.65 o Z  > 1.65”. Como  Z = -0.53 se puede concluir al nivel de significancia del 10% que los tiempos promedio deenfriamiento son los mismos para ambos métodos de cocción.

Prueba de Kruskall-Wallis

Es una prueba que compara tres o más poblaciones para determinar si existe una diferencia en la distribuciónde las poblaciones. Es análoga a la prueba  F utilizada en las pruebas ANOVA. No importa la restricción deque las poblaciones tienen que estar distribuidas normalmente.

Las hipótesis son: H 0: Todas las k poblaciones tienen la misma distribución. H 1: No todas las k poblaciones tienen la misma distribución.

Ejemplo. Un nuevo gerente de Avon debe comparar el tiempo que les toma a tres clientes pagar los envíosdel nuevo producto New-Face Cream, ofrecido por la empresa. Se seleccionan aleatoriamente varias compras

Page 162: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 162/176

Estadistica Inferencial

2013

162

de cada cliente, junto con el número de días que cada uno se tomó en liquidar su cuenta. Los resultadosaparecen en la Tabla 1.5.

Tabla 1.5 Número de días para pagar a Avon la entrega recibida.

ClienteCompra 1 2 3

1 28 26 372 19 20 283 13 11 264 28 14 355 29 22 316 22 217 21

Estadístico Kruskal- Wallis:

 ) 1 n ( 3 n 

 ) 1 n ( n 

12 K 

 

donde ni es el número de observaciones en la i-ésima muestran es el número total de observaciones en todas las muestras. Ri es la suma de los rangos de la i-ésima muestra.

Tabla 1.6 Rangos en la prueba de Kruskall-Wallis.Días Rango Días Rango Días Rango

11 113 2

14 319 4

20 521 6.5 21 6.522 8.5 22 8.5

26 10.5 26 10.528 1328 13 28 1329 15

31 1635 1737 18

 R1=62  R2=34.5  R3=74.5

Calculando el estadístico K se tiene:

18 .8 1 18 3 

5 .74 

5 .34 

62 

 ) 1 18 ( 18 

12 K 

2 2 2 

 

Enseguida comparamos K con un valor crítico. La distribución de  K es aproximada por una distribución chi-cuadrada con k  –  1 grados de libertad. Si  K excede el valor crítico de chi-cuadrada, se rechaza la hipótesisnula. En caso de seleccionar un valor de de 5% en la prueba de Avon, el valor crítico de chi-cuadrado dados

3-1 = 2 grados de libertad es 99 .5 2 

2 ,05 .0  .

Regla de decisión: No rechazar si k  5.99. rechazar si k > 5.99   

Como k = 18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en el tiempo que toma a tresclientes pagar sus cuentas con Avon.

Page 163: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 163/176

Estadistica Inferencial

2013

163

En el caso de que se rechace la hipótesis nula, el siguiente paso lógico es determinar cuáles diferencias sonestadísticamente significativas y cuales se deben a un error de muestreo. Esto involucra una comparación detodos los pares posibles. Los pasos para la comparación son los siguientes:

1.  Calcular el rango promedio para cada muestra.

9 .14 5 

5 .74 R 

75 .5 6 

5 .34 R 

86 .8 7 62 R 

 

2.  Calcular diferencias absolutas

15 .9 | 9 .14 75 .5 | | R R | 

04 .6 | 9 .14 86 .8 | | R R | 

11 .3 | 75 .5 86 .8 | | R R | 

3 2 

3 1 

2 1 

 

3.  Comparación con el valor crítico C k :

3elcon2clientedelnComparacio

3elcon1clientedelnComparacio

2elcon1clientedelnComparacio 

91 .7 5 

12 

19 18 99 .5 C 

65 .7 5 

12 

19 18 

99 .5 C 

27 .7 6 

12 

19 18 99 .5 

12 

1 n n C 

 j i 

1 k ,k 

 

4.  Comparación de las diferencias contra los valores críticos

diferenciaexistesi3y2entrey

difierenno3y1 Por tanto

difierenno2y1Por tanto

91 .7 15 .9 | 9 .14 75 .5 | | R R | 

65 .7 04 .6 | 9 .14 86 .8 | | R R | 

27 .7 11 .3 | 75 .5 86 .8 | | R R | 

3 2 

3 1 

2 1 

 

Correlación de rangos de Spearman

Page 164: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 164/176

Estadistica Inferencial

2013

164

5.6.-Pruebas de bondad de ajuste

PRUEBA DE BONDAD Y AJUSTE

Con mucha frecuencia no se conoce la distribución de probabilidad de la variable

aleatoria en estudio, digamos X, y se desea probar la hipótesis de que X sigue una

distribución de probabilidad particular. Por ejemplo, podría ser de interés probar la

hipótesis de que X sigue una distribución normal, una exponencial, etc.

Existen dos procedimientos para realizar pruebas de bondad de ajuste que son los más

conocidos. El primero se basa en una técnica gráfica muy útil llamada gráfica de

probabilidad y el segundo procedimiento se basa en la distribución Chi-cuadrada.

Page 165: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 165/176

Estadistica Inferencial

2013

165

1. GRAFICA DE PROBABILIDAD

La gráfica de la probabilidad es un método gráfico para determinar sí los datos se

ajustan a una distribución hipotética basada en un examen visual subjetivo de los datos; el

procedimiento general es muy simple y puede efectuarse con rapidez.

El procedimiento es el siguiente:

i. Se grafica la probabilidad de los datos en estudio, usando Minitab-13 se

procede a ingresar los datos requeridos en la hoja de trabajo (worksheet) luego

se selecciona: Graph>Probability Plot: 

ii. Luego en la ventana de diálogo que aparece, se especifica dónde se

encuentran los datos a graficar, haciendo doble clic en la variable de interés,

se establece luego el tipo de distribución que se desea probar, y luego se va a

Opt ions , para poder especificar en la próxima ventana el nivel de confianza, e

identificar la gráfica con un título. Se da OK y luego se ejecuta una gráfica de

probabilidad.

Page 166: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 166/176

Estadistica Inferencial

2013

166

iii. Luego de tener desarrollada la gráfica de probabilidad, según el tipo de

distribución que se desea probar, se analiza la misma bajo el siguiente criterio:

sí todos los puntos graficados caen aproximadamente sobre la línea de

probabilidad de la gráfica, entonces el modelo hipotético es apropiado, sí

los puntos graficados se desvían de modo significativo entonces el

modelo hipotético no es apropiado, y posteriormente se sigue probando conlos demás gráficos de probabilidad.

iv. A continuación dos gráficos de probabilidad para poder establecer la prueba de

bondad y ajuste en el ejemplo.

Page 167: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 167/176

Estadistica Inferencial

2013

167

Respuesta: Los datos siguen una distribución Normal

Respuesta: Los datos analizados no siguen una distribución Exponencial

Page 168: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 168/176

Estadistica Inferencial

2013

168

1. PRUEBA DE BONDAD Y AJUSTE DE LA CHI CUADRADA

El procedimiento de prueba de la Chi-cuadrada es un método analítico, requiere

una muestra aleatoria de tamaño n de la variable aleatoria  x. Estas n observaciones se

arreglan en histogramas de frecuencias, teniendo k  intervalos de clase (donde nk  ).

Sea Oi  la frecuencia observada en el i-ésimo intervalo de clase. De la distribución de

probabilidad hipotética, se calcula la frecuencia esperada en el i-ésimo intervalo de clase,

identificada como E i , La estadística de prueba es la siguiente:

i i

ii

 E 

 E O

1

22

0

)(    

Puede demostrarse que 2

0   sigue aproximadamente una distribución Chi cuadrada con k-

 p-1 grados de libertad, donde k es el número de intervalos,  p representa el número de

parámetros de la distribución hipotética, estimados por medio de estadísticas de la

muestra. Esta aproximación se mejora cuando n aumenta. Se rechaza la hipótesis de que

 x se ajusta a la distribución hipotética, si 2

1,

2

0 pk       .

El procedimiento para establecer la prueba utilizando Minitab -13 es el siguiente:

1. Ingreso de datos y cálculos de media y desviación estándar: del mismo modo

que en el caso anterior, se ingresan los datos en la hoja de trabajo (“worksheet” ),

de estos datos que viene a ser la muestra de la variable aleatoria x, se calcula la

media y la desviación estándar siguiendo las siguientes secuencias: calc >column

statistic> mean y calc>column>standard desviation, respectivamente, tal como

se puede apreciar en la ventana que se muestra a continuación.

Page 169: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 169/176

Estadistica Inferencial

2013

169

2. Histogramas de frecuencia: Para realizar un histograma de frecuencia se sigues

la siguiente secuencia: graph > histogram >options >frecuency >cutpoint >#

intervals 10. Para mostrar las frecuencias en la gráfica, ingresar a <Annotation>

<Data labels> y activar <show data labels> Ademas en < <Annotation> ingresar 

a <Title..> para colocar un título.

De este modo se obtiene la siguiente gráfica.

Page 170: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 170/176

Estadistica Inferencial

2013

170

3. El siguiente paso es ingresar los valores de frecuencia observada y los

intervalos. Como se puede apreciar de la figura anterior, Minitab -13 muestra

estos valores en el histograma de frecuencia, pero es necesario ingresarlos

manualmente a la hoja de trabajo. 

4. Cálculo de probabilidad para los límites superior e inferior de los intervalos.

Para esto se sigue la siguiente secuencia: calc>probability distribution>

<Normal> se especifica la media y desviación estándar halladas anteriormente enlos espacios que correspondan así como la columna en donde se requiere que se

almacenen los resultados, previamente se elige la distribución a la cual se ajustan

los datos. En el ejemplo se escogió la distribución normal. Este procedimiento se

muestra en la siguiente pantalla. 

Page 171: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 171/176

Estadistica Inferencial

2013

171

5. Cálculo de los valores esperados: para esto se escoge el menú de

calc>calculator; y se ingresa la fórmula según se muestra en la siguiente

pantalla. 

Es importante notar que si los valores esperados tienen valores numéricos menoresque 5.0, entonces debemos hacer una nueva agrupación, para lo cual se tomaránaquellos valores menores que 5 y se suman. En el ejemplo de 10 intervalos se reducea 7. Los tres primeros se reducen a uno y los dos últimos también se agrupan. Luego elprimer intervalo va desde 7.25 hasta 8.75 y el séptimo va desde 11.25 hasta 12.25.Con estos nuevos intervalos se repite el procedimiento anterior y se obtienen nuevosvalores esperados. Además se estiman dos 2 parámetros (la media y la desviación

Page 172: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 172/176

Estadistica Inferencial

2013

172

estándar). Por tanto los grados de libertad para calcular el valor Chi crítico es de 4, (g.l= 7-2-1 = 4)

6. Cálculo de la estadística Chi-cuadrada: Luego se sigue la secuencia siguiente:

Calc>Calculator ; y se define los parámetros que aparecen a continuación. El valor 

obtenido es de 4.187. 

7. Cálculo del valor Chí-crítico: Este valor también se puede obtener de las tablas

de distribución Chi-cuadrada que se encuentran en los libros, pero Minitab-13 lo

provee de la siguiente manera: Calc>Probability distribution>Chi

square>Inverse cumulative probability >imput constant: 0.95>OK, el resultado

correspondiente aparece en la ventana de “Session ”, y es igual a: 4877.92

95.0     

Page 173: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 173/176

Estadistica Inferencial

2013

173

8. Cálculo del valor p: En primer lugar se establece el valor de k, para tal efecto se

realiza lo siguiente: Calc>Probability Distributions> Chi-square; se selecciona

Cumulative Probability >. En Degrees of freedom se establece

(# grados de libertad) <Input column> y se establece el lugar a almacenar el valor 

en la celda que contendrá k en Optional storage tal como se puede apreciar en la

siguiente gráfica. 

9. Finalmente se calcula el valor p: Para esto se sigue la siguiente secuencia:

Calc> Calculator> storage result, se establece donde se desea almacenar el

Page 174: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 174/176

Estadistica Inferencial

2013

174

resultado, y se escribe la ecuación siguiente en Expression: (1-k), como se puede

apreciar en el siguiente diagrama. 

10. Resultados:

Como en el resultado de la prueba de Chi-cuadrada 4877.9187.4 22 críticocal  x x , o

como se estableció en la parte teórica 2

1,

2

0 pk       , entonces se acepta la hipótesis

nula H0. Por otro lado, como el p-value=0.38 > 0.05, no hay evidencia suficiente para rechazar 

H0.

5.7.-Aplicaciones

 A) Aplicasion de Pruebas de Hipotesis.

DEFINICIÓN DE HIPÓTESISEs una proposición que establece relaciones, entre los hechos; para otros es una posible soluciónal problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre lasvariables, y por último, hay quienes afirman que es un método de comprobación.La hipótesis como proposición que establece relación entre los hechos: una hipótesis es elestablecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida enque pueda generar explicaciones lógicas del porqué se produce este vínculo.Tamayo (1989  – 75): afirma que:"La hipótesis es una proposición que nos permite establecer relaciones entre los hechos. Su valor reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que se

Page 175: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 175/176

Estadistica Inferencial

2013

175

producen".La hipótesis como una posible solución del problema: la hipótesis no es solamente la explicación ocomprensión del vínculo que se establece entre los elementos inmersos en un problema, estambién el planteamiento de una posible solución al mismo.Pardinas (1974  – 132):"La hipótesis es una proposición anunciada para responder tentativamente a un problema".Hipótesis como relación entre variables: Kerlinger (1985 : 12) expresa; una expresión de lasrelaciones existentes entre dos o mas variables, la hipótesis se formula en términos de oraciónaseverativa por lo tanto:"Es una expresión conjetural de la relación que existe entre dos o más variables. Siempre apareceen forma de oración aseverativa y relaciona de manera general o específica, una variable con otra.Hipótesis como método de comprobación: para otros investigadores, la hipótesis es algo mas queel establecimiento de relaciones entre elementos, o la posible solución a un problema; por lo tanto;afirman que es fundamentalmente y ante todo, una herramienta de comprobación de los supuestoscon la realidad.

 Abouhamad (1965:74) sostiene: 

.

DEFINICIÓN DE HIPÓTESISEs una proposición que establece relaciones, entre los hechos; para otros es una posible soluciónal problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre lasvariables, y por último, hay quienes afirman que es un método de comprobación.La hipótesis como proposición que establece relación entre los hechos: una hipótesis es elestablecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida enque pueda generar explicaciones lógicas del porqué se produce este vínculo.Tamayo (1989  – 75): afirma que:"La hipótesis es una proposición que nos permite establecer relaciones entre los hechos. Su valor reside en la capacidad para establecer mas relaciones entre los hechos y explicar el por que seproducen".La hipótesis como una posible solución del problema: la hipótesis no es solamente la explicación ocomprensión del vínculo que se establece entre los elementos inmersos en un problema, es

también el planteamiento de una posible solución al mismo.Pardinas (1974  – 132):"La hipótesis es una proposición anunciada para responder tentativamente a un problema".Hipótesis como relación entre variables: Kerlinger (1985 : 12) expresa; una expresión de lasrelaciones existentes entre dos o mas variables, la hipótesis se formula en términos de oraciónaseverativa por lo tanto:"Es una expresión conjetural de la relación que existe entre dos o más variables. Siempre apareceen forma de oración aseverativa y relaciona de manera general o específica, una variable con otra.Hipótesis como método de comprobación: para otros investigadores, la hipótesis es algo mas queel establecimiento de relaciones entre elementos, o la posible solución a un problema; por lo tanto;afirman que es fundamentalmente y ante todo, una herramienta de comprobación de los supuestoscon la realidad.

 Abouhamad (1965:74) sostiene:

Page 176: Antologia de Estadistica

7/16/2019 Antologia de Estadistica.

http://slidepdf.com/reader/full/antologia-de-estadistica-563386ce4e176 176/176

Estadistica Inferencial

2013

BIBLIOGRAFÍA

1.-MURRAY R. SPIEGEL, JOHN SCHILLER, R. ALU SRINIVASAN PROBABILIDAD YESTADISTICA , SEGUNDA EDICIÓN EDITORIAL MC GRAW HILL.

2. Levin I. Richard Estadistica para administadores. Editorial: Prentice-Hall.

3. Kazmier. Estadistica aplicada apara la administracion y economia. Editorial:McGraw Hill.4. Walphole. Probabilidad y estadistica. Editorial McGraw Hill.5. John E. Freund A. Simon. Estadistica elemental. Editorial: Prentice-Hall.6. Hoel, Paul G., Sidney C. Port & Charles J. Stone, Introduction to StatisticalTheory, Houghton Mifflin Company.7. Dixon, Wilfrid J., & Frank J. Massey, Jr., Introduction to Statistical Analysis,McGraw-Hill Book Company.8. Montgomery, Douglas C., Lynwood A. Johnson & John S. Gardiner, Forecasting& Time Series Analysis, McGraw-Hill International Editions.9. Mendenhall, William, Richard L. Scheaffer & Dennis D. Wackerly, Estadística