clase 4

31
Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas ESTADISTICA DESCRIPTIVA Los científicos sociales, tomando a la física como modelo, generalmente asignan números a las variables sociales o conductuales que estudian. Los científicos sociales asignan números con el propósito de poder interpretar ciertas operaciones que se puedan realizar con ellos, pero algunas veces no se percatan que no todas las operaciones tienen algún significado. Las operaciones que se pueden realizar dada una determinada asignación de números a variables dependen de los niveles (tipos) de medición. Niveles de Medición Escala nominal Esta es la medición en su nivel más débil, se da cuando los números u otros símbolos se usan solamente para clasificar (identificar) un objeto, una persona o característica. No hay ninguna jerarquía ni orden a la hora de asignar los números. Por ejemplo, cuando en estudio genético se le asigna un número distinto a cada color de ojos: Ojos pardos 1 Ojos azules 2 Ojos negros 3 Todos los datos son equivalentes y se les asigna un número de forma aleatoria. Como los símbolos asignados pueden ser intercambiados sin alterar la información esencial, el único tipo de estadístico descriptivo son aquellos que no cambian a pesar a de la transformación: La moda, la cuenta de frecuencias, etc. Un promedio no tendría ningún significado. Escala ordinal Se da cuando los números asignados a las variables además de identificar a los datos conservan un orden determinado, es decir, ya no son asignados de manera aleatoria. Por ejemplo, en una encuesta se puede asignar un número distinto a cada posible nivel educativo alcanzado por una persona. Primaria terminada.....................1 Secundaria terminada.................2 Estudios Superiores....................3 En este caso se podría hacer cierta comparación entre dos personas distintas, se podría identificar quienes tienen mayor (orden) nivel educativo. Cualquier transformación de los números asignados a cada variable es inocua es esta escala de medición. El estadístico más apropiado para describir la tendencia central de las variables en una escala ordinal es la mediana, ya que la mediana no es afectada por los cambios de números asignados (siempre y cuando mantengan el orden). En este caso la media tiene cierto significado, pero no es muy 1

Upload: mario-rodriguez

Post on 02-Oct-2015

5 views

Category:

Documents


0 download

DESCRIPTION

Clase 4

TRANSCRIPT

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    ESTADISTICA DESCRIPTIVA Los cientficos sociales, tomando a la fsica como modelo, generalmente asignan nmeros a las variables sociales o conductuales que estudian. Los cientficos sociales asignan nmeros con el propsito de poder interpretar ciertas operaciones que se puedan realizar con ellos, pero algunas veces no se percatan que no todas las operaciones tienen algn significado. Las operaciones que se pueden realizar dada una determinada asignacin de nmeros a variables dependen de los niveles (tipos) de medicin.

    Niveles de Medicin

    Escala nominal Esta es la medicin en su nivel ms dbil, se da cuando los nmeros u otros smbolos se usan solamente para clasificar (identificar) un objeto, una persona o caracterstica. No hay ninguna jerarqua ni orden a la hora de asignar los nmeros. Por ejemplo, cuando en estudio gentico se le asigna un nmero distinto a cada color de ojos: Ojos pardos 1 Ojos azules 2 Ojos negros 3 Todos los datos son equivalentes y se les asigna un nmero de forma aleatoria. Como los smbolos asignados pueden ser intercambiados sin alterar la informacin esencial, el nico tipo de estadstico descriptivo son aquellos que no cambian a pesar a de la transformacin: La moda, la cuenta de frecuencias, etc. Un promedio no tendra ningn significado. Escala ordinal Se da cuando los nmeros asignados a las variables adems de identificar a los datos conservan un orden determinado, es decir, ya no son asignados de manera aleatoria. Por ejemplo, en una encuesta se puede asignar un nmero distinto a cada posible nivel educativo alcanzado por una persona. Primaria terminada.....................1 Secundaria terminada.................2 Estudios Superiores....................3 En este caso se podra hacer cierta comparacin entre dos personas distintas, se podra identificar quienes tienen mayor (orden) nivel educativo. Cualquier transformacin de los nmeros asignados a cada variable es inocua es esta escala de medicin. El estadstico ms apropiado para describir la tendencia central de las variables en una escala ordinal es la mediana, ya que la mediana no es afectada por los cambios de nmeros asignados (siempre y cuando mantengan el orden). En este caso la media tiene cierto significado, pero no es muy

    1

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    2

    recomendable. Tanto en esta como la escala anterior solo se puede hacer un anlisis de los datos no paramtricos (no se pueden hacer regresiones) dada las caractersticas de los datos. Escala de intervalo Cuando una escala tiene todas las caractersticas de una escala ordinal y cuando adems, tienen sentido las distancias o diferencias entre cualesquiera dos nmeros de la escala, se ha logrado una medicin considerablemente ms fuerte. Una escala de este tipo se caracteriza porque utiliza una unidad de medida comn para medir las variables analizadas. En la escala de intervalo el punto cero y la unidad de medida son arbitrarios. En este tipo de medicin la razn de cualesquiera dos intervalos es independiente del punto de cero y de la escala. Ejemplo de este tipo escala es la medicin de la temperatura, existen dos unidades de medidas para medirla : grados Celsius y Fahrenheit. Lo que importa es que la distancias entre dos valores cualesquiera de temperatura representen el mismo intervalo. La relacin entre las distancias de las dos medidas de temperatura es la siguiente: F = 9/5 c + 32. De esta forma la congelacin que ocurre a 0 grados Celsius ocurre a 32 grados Fahrenheit. Las transformaciones permitidas en esta escala no tienen que ser proporcionales como se pudo ver en el ejemplo. En este tipo de escala la mejor medida de tendencia central es la media. Adems, esta escala es la primera verdaderamente cuantitativa y las operaciones aritmticas ya pueden llevarnos a conclusiones interpretables. En esta escala se pueden empezar a usar medidas paramtricas para el anlisis de los datos. Escala de razn Cuando una escala tiene todas las caractersticas de una escala de intervalo y, adems, tiene un punto cero verdadero en su origen, se llama escala de razn. En esta escala la razn de cualesquiera dos puntos es independiente de la unidad de medida. Ejemplo de este tipo de escala es la medida del peso, un kilogramo es igual a mil gramos y siempre habr un punto cero que ser comn para ambos tipos de medida. Aqu las transformaciones lineales que se hagan de los nmeros asignados deben no solo guardar la misma proporcin en distancias sino que el punto cero se debe mantener fijo. Aqu el nico tipo de transformaciones lineales que se les pueden hacer a los valores tienen que ser proporcionales. En esta escala cualquier prueba estadstica paramtrica puede usarse.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    3

    version 9 clear set more off cd "C:\Cursos\Stata9\Sesion04" use Iraninos,clear describe Contains data from Iraninos.dta obs: 149 vars: 9 27 Feb 2005 22:08 size: 2,384 (99.8% of memory free) ------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------- sexo byte %8.0g SEXO edad float %9.0g EDAD getareo byte %8.0g GETAREO oliguria byte %8.0g OLIGURIA par byte %8.0g congenito byte %8.0g CONGENITO sepsis byte %8.0g SEPSIS tipodao byte %8.0g TIPODAO final byte %8.0g FINAL ------------------------------------------------------------------------- Sorted by:

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    4

    codebook SEXO ------------------------------------------------------------------------- type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/149 tabulation: Freq. Value 58 0 91 1 ------------------------------------------------------------------------- EDAD ------------------------------------------------------------------------- type: numeric (float) range: [.00273973,14] units: 1.000e-09 unique values: 51 missing .: 0/149 mean: 1.9777 std. dev: 3.69481 percentiles: 10% 25% 50% 75% 90% .008219 .019178 .166667 1 10 ------------------------------------------------------------------------- GETAREO ------------------------------------------------------------------------- type: numeric (byte) range: [0,3] units: 1 unique values: 4 missing .: 0/149 tabulation: Freq. Value 35 0 31 1 56 2 27 3 -------------------------------------------------------------------------

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    5

    OLIGURIA ------------------------------------------------------------------------- type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/149 tabulation: Freq. Value 118 0 31 1 ------------------------------------------------------------------------- PAR ------------------------------------------------------------------------- type: numeric (byte) range: [0,93] units: 1 unique values: 41 missing .: 9/149 mean: 16.6429 std. dev: 16.4286 percentiles: 10% 25% 50% 75% 90% 3 5.5 12 24 32.5 ------------------------------------------------------------------------- CONGENITO ------------------------------------------------------------------------- type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/149 tabulation: Freq. Value 124 0 25 1 ------------------------------------------------------------------------- SEPSIS ------------------------------------------------------------------------- type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/149 tabulation: Freq. Value 73 0 76 1

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    6

    ------------------------------------------------------------------------- TIPODAO ------------------------------------------------------------------------- type: numeric (byte) range: [0,3] units: 1 unique values: 4 missing .: 0/149 tabulation: Freq. Value 8 0 79 1 44 2 18 3 ------------------------------------------------------------------------- FINAL ------------------------------------------------------------------------- type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/149 tabulation: Freq. Value 104 0 45 1 Por el codebook vemos el tipo de variables y su frecuencia: *sexo: numrica categrica dicotmica *edad: numrica de razn *Getareo: numrica ordinal *Oliguria: numrica categrica dicotmica *Par: numrica de razn (discreta) *Congnito: numrica categrica dicotmica *Sepsis: numrica categrica dicotmica *Tipodao: numrica categrica policotmica *Final: numrica categrica dicotmica

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    7

    Renombramos las variables: label define sexo 0 "mujer" label define sexo 1 "hombre", add label values sexo sexo label define getareo 0 "prematuro" label define getareo 1 "rn", add label define getareo 2 "lactante", add label define getareo 3 "escolares", add label values getareo getareo label define sepsis 0 "no sepsis" label define sepsis 1 "sepsis", add label values sepsis sepsis label define tipodao 0 "asfixia neonat" label define tipodao 1 "nta", add label define tipodao 2 "nti", add label define tipodao 3 "nefro tox", add label values tipodao tipodao label define oliguria 0 "no oliguria" label define oliguria 1 "oliguria", add label values oliguria oliguria label define congenito 0 "no congenito" label define congenito 1 "congenito", add label values congenito congenito label define final 0 "vivo" label define final 1 "muerte por ira", add label values final final ********** La variable de inters (la dependiente) es "final" pues es un evento (se le puede asignar una probabilidad) de inters epidemiolgico. En este caso es la muerte de la persona debido a una falla renal aguda. Las explicativas son las que uno sospecha que causan dicho evento. Las variables de control al influir en la ocurrencia del evento se emplean para aislar las causas de las circunstancias. *Variables explicativas: sepsis, tipo de dao *Variables de control: sexo,edad. Getareo y congenito (dudosos)

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Para las variables categricas creamos tablas, grficos de pie. tabulate sexo SEXO | Freq. Percent Cum. ------------+----------------------------------- mujer | 58 38.93 38.93 hombre | 91 61.07 100.00 ------------+----------------------------------- Total | 149 100.00 graph pie, over(sexo)

    mujer hombre tabulate getareo GETAREO | Freq. Percent Cum. ------------+----------------------------------- prematuro | 35 23.49 23.49 rn | 31 20.81 44.30 lactante | 56 37.58 81.88 escolares | 27 18.12 100.00 ------------+----------------------------------- Total | 149 100.00 graph pie, over(getareo)

    8

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    prematuro rnlactante escolares tabulate congenito

    CONGENITO | Freq. Percent Cum. -------------+----------------------------------- no congenito | 124 83.22 83.22 congenito | 25 16.78 100.00 -------------+----------------------------------- Total | 149 100.00 graph pie, over(congenito)

    no congenito congenito tabulate tipodao TIPODAO | Freq. Percent Cum. ---------------+----------------------------------- asfixia neonat | 8 5.37 5.37 nta | 79 53.02 58.39 nti | 44 29.53 87.92 nefro tox | 18 12.08 100.00 ---------------+----------------------------------- Total | 149 100.00 graph pie, over(tipodao)

    9

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    asfixia neonat ntanti nefro tox

    10

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    tabulate final FINAL | Freq. Percent Cum. ---------------+----------------------------------- vivo | 104 69.80 69.80 muerte por ira | 45 30.20 100.00 ---------------+----------------------------------- Total | 149 100.00 graph pie, over(final)

    vivo muerte por ira

    11

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Para las variables con escala de razn empleamos sum o histogramas. summarize edad, detail EDAD ------------------------------------------------------------- Percentiles Smallest 1% .0027397 .0027397 5% .0054795 .0027397 10% .0082192 .0027397 Obs 149 25% .0191781 .0054795 Sum of Wgt. 149 50% .1666667 Mean 1.977695 Largest Std. Dev. 3.694806 75% 1 13 90% 10 13 Variance 13.65159 95% 11 13 Skewness 1.969659 99% 13 14 Kurtosis 5.418928 histogram edad

    0.2

    .4.6

    Den

    sity

    0 5 10 15EDAD

    graph box edad, medtype(line)

    05

    1015

    ED

    AD

    12

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Ahora, realizaremos el mismo anlisis para la variable par. summarize par, detail ------------------------------------------------------------- Percentiles Smallest 1% 0 0 5% 2 0 10% 3 1 Obs 140 25% 5.5 1 Sum of Wgt. 140 50% 12 Mean 16.64286 Largest Std. Dev. 16.42864 75% 24 65 90% 32.5 72 Variance 269.9003 95% 46.5 91 Skewness 2.21764 9 9% 91 93 Kurtosis 9.24408

    histogram par

    0.0

    1.0

    2.0

    3.0

    4.0

    5D

    ensi

    ty

    0 20 40 60 80 100par graph box par, medtype(line)

    020

    4060

    8010

    0

    13

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    14

    Cuando cruzamos dos variables categricas empleamos la prueba de Pearson, que tiene como hiptesis nula que las variables fila y columna son independientes entre s. tabulate final sexo, chi2 | SEXO FINAL | mujer hombre | Total ---------------+----------------------+---------- vivo | 38 66 | 104 muerte por ira | 20 25 | 45 ---------------+----------------------+---------- Total | 58 91 | 149 Pearson chi2(1) = 0.8258 Pr = 0.363 tabulate final getareo, chi2 | GETAREO FINAL | prematuro rn lactante escolares | Total ---------------+--------------------------------------------+---------- vivo | 21 17 43 23 | 104 muerte por ira | 14 14 13 4 | 45 ---------------+--------------------------------------------+---------- Total | 35 31 56 27 | 149 Pearson chi2(3) = 9.2145 Pr = 0.027

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    A continuacin analizaremos la relacin que existe entre dos variables correlate edad par | edad par -------------+------------------ edad | 1.0000 par | -0.0845 1.0000

    05

    1015

    ED

    AD

    0 20 40 60 80 100par

    15

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Queremos analizar la direccin y la fuerza de la relacin entre dos variables considerando un factor. sort final . by final: correlate edad par _______________________________________________________________________________ -> final = vivo (obs=97) | edad par -------------+------------------ edad | 1.0000 par | -0.1728 1.0000 _______________________________________________________________________________ -> final = muerte por ira (obs=43) | edad par -------------+------------------ edad | 1.0000 par | 0.0691 1.0000

    05

    10E

    DA

    D

    0 10 20 30 40par

    16

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Otro ejemplo pero con ms categoras en su factor. sort getareo . by getareo: correlate edad par _______________________________________________________________________________ -> getareo = prematuro (obs=35) | edad par -------------+------------------ edad | 1.0000 par | 0.5872 1.0000 _______________________________________________________________________________ -> getareo = rn (obs=26) | edad par -------------+------------------ edad | 1.0000 par | -0.0752 1.0000 _______________________________________________________________________________ -> getareo = lactante (obs=54) | edad par -------------+------------------ edad | 1.0000 par | -0.1241 1.0000 _______________________________________________________________________________ -> getareo = escolares (obs=25) | edad par -------------+------------------ edad | 1.0000 par | -0.0252 1.0000

    0.0

    2.0

    4.0

    6.0

    8E

    DA

    D

    0 20 40 60 80par

    17

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    18

    Cuando cruzamos una categrica con una de razn empleamos tablas con sum tabulate final, summ(edad) | Summary of EDAD FINAL | Mean Std. Dev. Freq. ------------+------------------------------------ vivo | 2.3427669 3.9636195 104 muerte po | 1.1339746 2.8459782 45 ------------+------------------------------------ Total | 1.9776954 3.6948061 149 tabulate final, summ(par) | Summary of par FINAL | Mean Std. Dev. Freq. ------------+------------------------------------ vivo | 19.783505 17.452451 97 muerte po | 9.5581395 11.084744 43 ------------+------------------------------------ Total | 16.642857 16.428643 140

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    19

    Comandos para combinar datos Suponga que usted debe consolidar la informacin de las siguientes bases de datos para generar un reporte. Como parte del trabajo del investigador es acopiar y consolidar la informacin, este problema es muy comn. Para combinar datos se emplean los comandos append, merge y joinby. base1.dta base3.dta nombre sexo micro macro nombre Sexo econometria mate Juan 1 15 12 Juan 1 14 15Rosa 2 14 13 Rosa 2 12 17Ricardo 1 14 17 base2.dta base4.dta nombre sexo micro macro nombre sexo econometria Helena 2 18 16 helena 2 13 Jorge 1 11 14 Jorge 1 16 Paola 2 15 Paola 2 19 Alexis 2 10 16 Alexis 2 11 En el archivo bases.do se muestra como solucionarlo. append append using filename [, nolabel keep(varlist) ] Une a los registros del archivo cargado en la memoria los registros de otro que est en el disco, cuyo nombre se seala con using. merge merge [varlist] using filename [, keep(varlist) unique uniqmaster uniqusing nolabel update replace nokeep _merge(varname) ] Une a las observaciones del archivo cargado en la memoria las observaciones de otro que est en el disco, cuyo nombre se seala con using. Cuando se fusionan bases de datos con el comando merge se estn agregando variables a un registro, por lo cual es crucial saber si un registro est en la base master (la que est cargada en la memoria) o en la slave ( la que sigue a la palabra using) o en ambas bases. Para ello se tabula la variable _merge que se autogenera (o la variable que se haya creado para tal fin)

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    20

    La base, una vez finalizada es: nombre sexo micro macro econom~a mate _merge

    1 Alexis 2 10 16 11 . 32 Helena 2 18 16 13 . 33 Jorge 1 11 14 16 . 34 Juan 1 15 12 14 15 35 Paola 2 . 15 19 . 36 Ricardo 1 14 17 . . 17 Rosa 2 14 13 12 17 3

    joinby joinby [varlist] using filename [, unmatched(none|both|master|using) nolabel update replace merge(varname) ] Supongamos ahora que queremos saber cuantos individuos se benefician de determinado programa social, pero este programa se ejecuta por hogares, cada uno de los cuales tiene diferente nmero de individuos. Sin embargo la base que describe los hogares est separada de la base que describe los receptores de los programas sociales. Por ejemplo: base5.dta base6.dta

    codperso codhogar edad codhogar progsocial 1 172 35 172 12 172 29 185 01 185 48 190 12 185 45 3 185 24 4 185 19 1 190 25 2 190 24 3 190 2

    El resultado es: codperso codhogar edad progsocial

    1 1 172 35 12 2 172 29 13 1 185 48 04 2 185 45 05 3 185 24 06 4 185 19 07 1 190 25 18 2 190 24 19 3 190 2 1

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    21

    collapse collapse clist [weight] [if exp] [in range] [, by(varlist) cw fast] Suponga que tiene la siguiente informacin sobre los hogares, pero se necesita obtener para cada individuo el ingreso familiar y la edad del jefe de familia (codperso igual a 1). base7.dta codperso codhogar edad ingreso

    1 172 35 15002 172 29 12001 185 48 4502 185 45 8003 185 24 5004 185 19 01 190 25 22002 190 24 15003 190 2

    El resultado es: codperso codhogar edad ingreso ingresofam edadjefe

    1 1 172 35 1500 2700 35 2 2 172 29 1200 2700 35 3 1 185 48 450 1750 48 4 2 185 45 800 1750 48 5 3 185 24 500 1750 48 6 4 185 19 0 1750 48 7 1 190 25 2200 3700 25 8 2 190 24 1500 3700 25 9 3 190 2 . 3700 25

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    22

    Naresh Maholtra INVESTIGACIN DE MERCADOS Captulo 11

    Muestreo: Diseo y procedimientos Muestra o Censo: Una investigacin tiene como objetivo siempre estudiar los parmetros de una poblacin objetivo. Una poblacin es el conjunto de todos los elementos que comparten algn grupo de caractersticas comunes y que forman el universo para el propsito del problema de la investigacin. La aproximacin a los parmetros de una poblacin por parte del investigador se puede a travs de un censo o muestra. Un censo comprende un recuento completo de los elementos de la poblacin. Por otra parte, una muestra comprende un subgrupo de elementos de la poblacin. Las inferencias que unen las caractersticas de la muestra con los parmetros de la poblacin se llaman procedimientos de estimacin. Condiciones que favorecen el uso de la Muestra contra el censo: Muestra Censo Presupuesto Reducido Amplio Tiempo disponible Breve Prolongado Tamao de la poblacin Pequea Numerosa Varianza en la caracterstica Baja Alta Costos de los errores de muestreo Bajo Alto Costos de los errores de falta de muestreo Alto Bajo Naturaleza de la medicin Destructiva No destructiva Atencin a casos individuales S No Pero estas condiciones no siempre se dan y algunas veces se utiliza el censo.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    23

    El Proceso de Diseo de la Muestra Este proceso incluye 5 pasos: Primer paso: Definicin de la poblacin Meta: Un investigador primero debe especificar el conjunto de elementos que poseen la informacin que busca y a cerca de la cual desea hacer inferencias. Esta es la poblacin meta, la cual debe definirse en trminos de elementos, las unidades de la muestra, la extensin y el tiempo. Un elemento es el objeto sobre el cual se desea informacin, por lo regular en una encuesta hace referencia a un entrevistado. Una unidad de muestra es un subgrupo de la muestra elegida que puede ser igual o no al elemento. Segundo Paso: Determinacin del Marco de la Muestra El marco de la muestra es una representacin de los elementos de la poblacin meta que consiste en una lista o grupo de indicadores para identificar la poblacin meta. Un ejemplo simple de marco de la muestra puede ser una gua telefnica o una lista de clase en algn curso. Con frecuencia a la hora de listar los elementos incluimos elementos que no pertenecen a la poblacin u omitimos uno que s pertenece a la poblacin. En algunos casos este error es pequeo y se ignora. Otras veces es necesario solucionar este error y hay diversos caminos como redefinir la poblacin en funcin del marco muestral, corregir los errores en el proceso de entrevistas o ponderar los datos del marco dndole mayor probabilidad a los que pertenecen a la muestra. Tercer Paso: Seleccin de una tcnica de muestreo La seleccin de una tcnica de muestreo comprende varias decisiones entre las que se encuentra si el muestreo ser bayesiano o tradicional, realizar la muestra con reemplazo o sin reemplazo y la ms importante de todas que es si el muestreo ser probabilstico o no probabilstico (y dentro de cada subgrupo hay que elegir un tipo). Esta ltima decisin ser ampliada en secciones subsiguientes. La estrategia bayesiana selecciono los elementos de la muestra en forma secuencial, despus de que cada elemento se agrega se recopilan las estadsticas de la muestra y los costos del muestreo; este mtodo supone que de antemano conocemos los costos y la probabilidades asociadas a las tomas de decisiones equivocadas. En el muestreo con reemplazo un elemento puede incluirse en la muestra ms de una vez mientras que en el que es sin reemplazo no. Cuarto paso: Determinacin del tamao de la muestra El tamao se refiere al nmero de elementos que se incluirn en un estudio. Esta eleccin d.C. considerar: -La importancia de la muestra (mientras ms importante se necesitar mayor precisin y una muestra ms grande). -La naturaleza de la investigacin -El nmero de variables -La naturaleza del anlisis -Los tamaos de la muestra utilizada en estudios anteriores -las limitaciones de recursos.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    24

    Quinto Paso: Ejecucin del proceso de muestreo La cual debe ajustarse tomando en cuenta las elecciones hechas en los cuatro pasos anteriores.

    Clasificacin de las tcnicas de muestreo

    En el proceso de eleccin por muestreo probabilstico todos los elementos de la poblacin tienen la misma probabilidad de formar parte de la muestra mientras que en los procesos no probabilsticos la seleccin depende del juicio personal del investigador. Tcnicas de Muestreo de no Probabilidad Muestreo por conveniencia: Esta tcnica trata de obtener los elementos de acuerdo al punto de vista del investigador. Un ejemplo simple de esta tcnica son las encuestas en la calle, donde se entrevista a aquella persona que estuvo a la hora indicada en el lugar indicado (camin cerca del entrevistador cuando este haca la encuesta). Este tipo de muestras no se recomienda para la investigacin descriptiva ni causal, pero pueden emplearse en la investigacin de exploracin para generar hiptesis. Muestreo por juicio: Forma de muestreo por conveniencia en la cual los elementos de la poblacin se seleccionan de manera intencional sobre la base del juicio del investigador. Ejemplos de esta tcnica son: Los mercados seleccionados para determinar el potencial de un nuevo producto, cuando se elige al tercio superior de cada facultad de una universidad para hacerle una encuesta sobre un tema especfico (como la forma de encuestar el rendimiento de los profesores a final de ciclo). Muestreo por Cuotas: Es un muestreo por juicio restringido de dos etapas. La primera consiste en el desarrollo de categoras de control (caractersticas de inters o cuotas) de los elementos de la poblacin. En la segunda etapa, los elementos de la muestra se seleccionan con base en la conveniencia o el juicio y como nico requerimiento deben cumplir con las caractersticas antes indicadas. Un ejemplo simple de esta tcnica es el siguiente: En una encuesta para evaluar los distintos gobiernos desde el 85. En una primera etapa se establece que solo se quiere entrevistar a personas mayores de cuarenta aos y en una segunda etapa se entrevista en la calle a 50 personas que cumplan con este requisito (por conveniencia). Muestreo de bola de nieve: En esta tcnica se selecciona un grupo inicial de entrevistados, por lo general en forma aleatoria. Despus de la entrevista, se pide a los participantes que identifiquen a otros que pertenecen a la poblacin meta de inters, por tanto, los entrevistados subsecuentes se eligen con base en referencias. Este proceso se lleva a cabo progresivamente ocasionando un efecto bola de nieve.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    25

    An cuando en la primera etapa se emplee una tcnica probabilstica, el resultado final es predominantemente no probabilstico. La ventaja principal de este muestreo es que aumenta la probabilidad de encontrar las caractersticas deseadas en la poblacin. Este mtodo suele ser utilizado para estudiar las caractersticas raras en la poblacin. Por ejemplo si se quisiera hacer un estudio en Ayacucho de quienes se beneficias con el programa Qatari Wawa, se podra utilizar este mtodo para seleccionar la poblacin meta. Tcnicas de muestreo probabilstico Todo investigador debe tener en cuenta que existe una relacin positiva entre el costo de un muestreo y su precisin (mientras ms exacta, ms costosa). Una tarea importante es, por tanto, realizar el muestreo de la forma ms eficiente posible tomando en cuenta que existe previamente un presupuesto asignado. La eficiencia de las diferentes formas de muestreo se evalan comparndolas con el muestreo aleatorio simple. Muestreo Aleatorio Simple (SRS) En esta tcnica, cada elemento de la poblacin tiene una probabilidad de seleccin idntica y conocida, se elige independientemente de cualquier otro. Lo mismo ocurre con cualquier muestra de tamao n que se formule por medio de un proceso aleatorio. Caractersticas positivas:

    - Fcil de comprender. - Resultados pueden proyectarse a la poblacin meta. - La mayora de planteamientos de inferencia suponen que la muestra ha sido recopilada por

    este procedimiento.

    Limitaciones: - Difcil construir un marco del cual se pueda extraer una muestra por muestreo aleatorio

    simple. - Pueden resultar muestras muy grandes. - Baja precisin (con respecto a las dems tcnicas). - Existe incertidumbre acerca de la representatividad de la muestra.

    Muestreo sistemtico En este caso, primero se elige aleatoriamente, un punto inicial. Luego, en base a ese punto inicial se eligen en sucesin cada isimo elemento. El intervalo i de la muestra se determina dividiendo el tamao de la poblacin por el de la muestra que se desea. Por ejemplo, si aleatoriamente se elige el nmero 33 y sabemos que la poblacin consta de 10000 individuos y se requiere una muestra de 100; los elementos siguientes sern 133 (33+100), 233 (133+100), etc. Cada elemento de la muestra tiene probabilidad idntica y conocida pero slo las muestras de tamao n tienen esa propiedad. Muestras de un tamao distinto tienen una probabilidad de cero de ser elegidas. Una nota importante es que este tipo de muestreo es til y representativo cuando los elementos presentan un orden que se relaciona con la caracterstica de inters. Adems, resulta ser menos costoso pues la seleccin aleatoria se realiza solo una vez (al principio).

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    26

    Muestreo estratificado Una poblacin se divide en subgrupos(estratos) y se selecciona una muestra de cada estrato. Hay que notar que los estratos deben ser lo ms excluyentes posibles entre ellos; no obstante, dentro de un estrato, se requiere que la poblacin sea bastante homognea. Las variables que se utilizan para dividir a la poblacin se llaman variables de estratificacin, deben estar bastante relacionadas con la caracterstica de inters y normalmente se emplea solo una. Dentro de este tipo de muestreo tenemos otras dos categoras:

    - Muestreo proporcionado: el tamao de la muestra de cada estrato es proporcional al tamao relativo de ese estrato en la poblacin.

    - Muestreo desproporcionado: el tamao del estrato es proporcional al tamao relativo del estrato y a la desviacin estndar entre todos los elementos del mismo. Para utilizarlo se requiere que se tenga alguna informacin sobre la distribucin de la caracterstica de inters.

    Esta resulta una tcnica de empleo bastante usada pues la muestra resulta ser representativa y adems, el procedimiento es sencillo. Muestreo por grupos Para utilizar esta tcnica se siguen dos pasos. En primer lugar, se divide a la poblacin objetivo en subpoblaciones mutuamente excluyentes y colectivamente exhaustivas (de modo que los elementos de las subpoblaciones sean homogneos) que se denominarn grupos. En segundo lugar, se escogen aleatoriamente algunos grupos de forma aleatoria y se concentran los esfuerzos en estos, descartndose los no elegidos. Una muestra de grupo tambin se puede realizar en ms de dos etapas (muestra de etapas mltiples). La diferencia con el muestreo estratificado reside que en este caso se extrae una muestra de grupos para la seleccin posterior y no se seleccionan todas las subpoblaciones. Una forma particular del muestreo de grupos es el muestreo de reas. En esta tcnica, los grupos se refieren a reas geogrficas, la lgica es la misma que el muestreo de grupos y tambin puede realizarse en dos o ms etapas. Si los grupos que se han formado no tienen igual tamao, se pueden combinar grupos para mejorar la precisin de la muestra. Cuando no se puede, se lleva a cabo el muestreo probabilstico proporcional al tamao (PPS). Este consiste en asignar probabilidades de manera que varen en forma inversa al tamao del grupo. De esta manera, en la primera eleccin es ms probable que se elijan grupos grandes que pequeos. Existen dos grandes ventajas del muestreo de grupo: su viabilidad y bajo costo. Sin embargo, a la vez existen algunas limitaciones. Entre ellas tenemos: las muestras resultan relativamente inexactas y resulta difcil formar grupos relativamente heterogneos.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    27

    Otras tcnicas de muestreo probabilstico:

    - Muestreo secuencial: Los elementos de la poblacin se incluyen en la muestra de forma secuencial. En cada etapa del proceso se recopilan y analizan los datos, se toma una decisin de si se incluyen o no elementos adicionales a la poblacin. Se utiliza para determinar las preferencias de dos alternativas en competencia.

    - Muestreo doble: Llamado tambin muestreo de dos etapas. En esta tcnica, ciertos elementos se incluyen dos veces en la muestra. En la primera etapa se selecciona una muestra y se recopila informacin de todos los elementos de una muestra. En la segunda etapa, se toma una submuestra y se vuelve a recopilar informacin acerca de los elementos de la misma.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    ENCUESTA NACIONAL DE HOGARES (ENAHO)

    Inicio: 1995. Ha sido llevada a cabo trimestralmente hasta el cuarto trimestre del ao 2002. En mayo del 2003 empez a realizarse en forma continua. Objetivos: Generar indicadores relacionados al empleo y al ingreso con el objetivo de conocer las

    condiciones de vida de los hogares (bienestar y pobreza) y su evolucin. Medir el alcance de los programas sociales provistos por el Estado. Cobertura: La encuesta se realiza tomando en cuenta el mbito nacional, en el rea urbana y rural, en los 24 departamentos y la Provincia Constitucional del Callao. Diseo muestral: Tipo de muestreo:

    Probabilstica, de reas, estratificado, multietpico e independiente en cada departamento de estudio.

    Tamao de la muestra (a partir de ENAHO 2003): Total: la encuesta se realiza a 20084 viviendas particulares. Por otro lado, existe una parte de la muestra que es encuestada siempre. Este panel consta de 6146 viviendas particulares.

    Mtodo de recoleccin de datos: Se encuesta directamente a todas las personas de catorce aos o ms.

    En cada trimestre la ENAHO suele abarcar un tema particular, los cuales son presentados a continuacin:

    28

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    Inferencia, Solo se puede hacer inferencia a partir de los datos a nivel departamental. A nivel provincial solo se pude hacer inferencia en Lima Metropolitana y en la Provincia Constitucional del Callao. Nota: En la siguiente direccin se pueden hacer todo tipo de preguntas acerca de la ENAHO y sern respondida por el INEI: http://www.inei.gob.pe/ineibpr/enahobpr.htm.

    29

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    30

    Aplicacin: ENAHO 2000-II. Una de las ventajas que ofrece el Stata para el anlisis de Encuestas como la ENAHO, con Diseo muestral complejo, es que permite calcular los estimadores teniendo en cuenta el diseo muestral de la misma (diferente al muestreo simple al azar). Adems, Stata proporciona estadsticos con los cuales se puede evaluar la confiabilidad del resultado en forma simultnea a su estimacin. De esta manera el usuario est en la capacidad de interpretar y utilizar adecuadamente cada estimacin proveniente de la encuesta. Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas por muestreo son:

    Ponderacin: En las encuestas por muestreo, las observaciones son seleccionadas mediante un proceso aleatorio, donde cada observacin puede tener una probabilidad de seleccin diferente. La ponderacin (o peso) de una observacin (hogar, por ejemplo) es igual a la inversa de la probabilidad de pertenecer a la muestra. Es usual que luego del trabajo de campo se realicen ajustes sobre esta ponderacin, debido, por ejemplo, al efecto de la No-Respuesta. Un peso wj de una observacin j significa que la observacin j representa a wj elementos de la poblacin. Si no se toman en cuenta las ponderaciones, las estimaciones que se obtengan estarn sesgadas.

    Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados, es decir las observaciones son muestreadas en grupos o clusters, por ejemplo, provincias dentro de departamentos, distritos dentro de provincias y finalmente viviendas dentro de los distritos seleccionados, que son el objetivo final del muestreo. Todas las observaciones de un mismo cluster no son independientes entre si, si no se toma en cuenta este hecho, los errores estndar que se obtengan sern menores a los verdaderos.

    Estratos: En algunos casos, tambin se emplea el muestreo estratificado, donde diferentes grupos de observaciones o estratos, son muestreados en forma independiente. Al igual que el caso anterior, si no se toma en cuenta este hecho, se obtendrn sub estimaciones de los errores estndar verdaderos.

  • Stata 9.0 para economistas Milenka Moschella y Juan Manuel Rivas

    31

    Tarea N3

    1. Trabajando con la ENAHO 2000 segundo trimestre. Slo para el Departamento de Lima. Fusione el captulo 100 y el 200.

    2. Ponga comentarios a todas las lneas de los archivos do base1.do y base2.do.

    ESTADISTICA DESCRIPTIVA Niveles de Medicin Escala nominal Naresh Maholtra INVESTIGACIN DE MERCADOS

    Aplicacin: ENAHO 2000-II.