# Muestreo en Poblaciones Finitas. # El archivo Fam1500.txt contiene la información correpondiente # a una población de 1500 familias de una localidad española, a cada # una de las cuales se han medido las siguientes variables: # 1. NID: nº de identificación, de 1 a 1500. # 2. PE: nº de personas en la familia. # 3. ING: ingresos familiares anuales. # 4. AL: gastos alimenticios anuales. # 5. AD: otros gastos familiares. # 6. V: vale 1 ó 0 según la vivienda sea propia o no. # 7. A: vale 1 ó 0 según la familia posea automovil o no. # 8. O: vale 1 ó 0 según la familia disponga en su hogar # de ordenador personal o no. # 9. D: distrito de la población al que pertenece la familia, con # valores entre 1 y 100. # # Las cantidades monetarias están en EUROS y los datos pertenecen a # 1993 (Fernández y Mayor (1995)). datos<-read.table("Fam1500.txt", head=T) attach(datos) library(muestreo, lib.loc="../") # Muestreo Aleatorio Simple.(MAS(N,n)) # Estimar la media poblacional en gastos de alimentación, AL. # (puntulamente y mediante un intervalo de confianza) a partir de la # información contenida en una muestra aleatoria simple de tamaño 15. x<-c(1256,949,163,1101,800,270,29,1218,802,106,1397,353,1196,974,291) mas.media(AL[x],N=1500) x<-sample(1500,15) mas.media(AL[x], N=1500) # Determinar el tamaño muestral necesario para estimar la media # poblacional en gastos de alimentación con un error relativo de 1/20, # para un nivel de confianza del 95% mas.media(AL[x], N=1500, delta=1/20) # Construir intervalos de confianza simultáneos, al 95%, para la media # poblacional de las variables gastos de alimentación, AL, # y gastos adicionales, AD mas.media(AL[x], N=1500, alfa=0.05/2) mas.media(AD[x], N=1500, alfa=0.05/2) # Estimar la proporción de familias con vivienda propia (variable V) # (puntulamente y mediante un intervalo de confianza) a partir de la # información contenida en una muestra aleatoria simple de tamaño 12. x<-c(98,345,456,559,567,654,789,890,990,1214,1367,1401) mas.media(V[x],N=1500) x<-sample(1500, 12) mas.media(V[x],N=1500) # Determinar el tamaño muestral necesario para estimar la proporción # de familias con vivienda propia (variable V) con una precisión 0.05, # y una confianza del 95%. mas.media(V[x],N=1500,delta=0.05/mean(V[x])) # Estimar el total de gastos de alimentación (AL) y de otros gastos # adicionales (AD), y construir intervalos de confianza simultáneos # para ambas estimaciones, al nivel de confianza 0.95. mas.total(AL[x], N=1500, alfa=0.05/2) mas.total(AD[x], N=1500, alfa=0.05/2) # Determinar el tamaño muestral necesario para estimar la diferencia # entre la media de ingresos y la media de gastos adicionales con una # precisión relativa 0.05, al nivel de confianza 0.95. mas.media((ING-AD)[x], N=1500, delta=0.05) # Estimar la razón entre el total de gastos de alimentación, AL, y el # total de gastos adicionales, AD, usando una muestra aleatoria de # tamaño 15. x<-sample(1500, 15) mas.razon(AL[x],AD[x], N=1500) # Muestreo Aleatorio Estratificado.(MASE) # Estratificar la población Fam1500 en L=3 estratos utilizando como variable # auxiliar ING, ingresos familiares. (Utilizar el método de Dalenius-Hodges). edh<-tabla.frec(ING,20) cumsum(sqrt(edh[,1]))/sum(sqrt(edh[,1])) # Se deduce de lo anterior que los límites de los estratos corresponden a las # clases sexta y undécima. Los estratos que debemos formar pueden ser: # # U1={ING<=38000} E1<-ING<=38000 # U2={3800038000 & ING<=44000 # U3={4400044000 # # Los tamaños de estos estratos son: N1<-sum(E1) N2<-sum(E2) N3<-sum(E3) # Extraer una muestra de tamaño n=30 mediante un muestreo aleatorio estratificado # con afijación proporcional. n1<-round(30*N1/1500) n2<-round(30*N2/1500) n3<-round(30*N3/1500) x1<-sample(NID[E1],n1) x2<-sample(NID[E2],n2) x3<-sample(NID[E3],n3) x<-c(x1,x2,x3) # Con dicha muestra estimar la media de gastos de alimentación, AL, (puntulamente # y mediante un intervalo de confianza). Determinar qué tamaños muestrales # necesitamos (mediante afijación de Neyman) para poder estimar dicha media con # una precisión absoluta de 150 euros, para un nivel de confianza del 95%. mase.media(AL[x],c(N1,N2,N3),c(n1,n2,n3),delta=150) # Para que tenga validez la afijación de Neyman debemos comprobar si existe una # relación lineal entre la variable bajo estudio, AL, y la variable utilizada para # estratificar la población, ING. plot(ING,AL) # Estudiar qué ocurre dentro de cada estrato respecto a la media de la variable AL. mase.media(AL[x],c(N1,N2,N3),c(n1,n2,n3),delta=0.05,estrato=1) mase.media(AL[x],c(N1,N2,N3),c(n1,n2,n3),delta=0.05,estrato=2) mase.media(AL[x],c(N1,N2,N3),c(n1,n2,n3),delta=0.05,estrato=3) # Con dicha muestra estimar la proporción de familias con vivienda propia, V, # (puntulamente y mediante un intervalo de confianza). mase.media(V[x],c(N1,N2,N3),c(n1,n2,n3),delta=0.1) # Con dicha muestra estimar (puntulamente y mediante un intervalo de confianza) # la razón entre el total de ingresos familiares, ING, y el total de gastos de # alimentación, AL. mase.razon(ING[x],AL[x],c(N1,N2,N3),c(n1,n2,n3)) # Muestreo por Conglomerados.(CON) # Muestreo por Conglomerados en una Etapa.(CON1) # En la población Fam1500, estimar la media de gastos de alimentación, AL, a partir # de un muestreo por conglomerados en una etapa, utilizando los distritos definidos # por la variable D como conglomerados, y usando un diseño MAS(100,5) para # seleccionar los mismos. y<-sample(100,5) # Muestra de conglomerados x<-numeric(); for(i in y){x<-c(x,NID[D==i])} # Muestra de la población # Tamaños poblacionales de los conglomerados muestreados tam.cong<-numeric(); for(i in y){tam.cong<-c(tam.cong,sum(D==i))} cong.media(AL[x],V=tam.cong,N=1500,M=100) # Con la muestra anterior estimar la proporción de familias con vivienda propia. cong.media(V[x],V=tam.cong,N=1500,M=100) # Con la muestra anterior estimar la razón entre la media de ingresos familiares, ING, # y de gastos de alimentación, AL. cong.razon(ING[x],AL[x],V=tam.cong,N=1500,M=100) # Muestreo por Conglomerados en dos Etapas.(CON2) # En la población Fam1500, estimar la media de gastos de alimentación, AL, la # proporción de familias con vivienda propia y la razón entre la media de # ingresos familiares, ING, y de gastos de alimentación, AL, a partir # de un muestreo por conglomerados en dos etapas, utilizando los distritos definidos # por la variable D como conglomerados, y aplicando el siguiente plan de muestreo: # 1. Primera etapa: selección de conglomerados mediante un diseño MAS(100,5). # 2. Segunda etapa: muestreo en cada conglomerado seleccionado en la etapa # anterior, mediante un MAS(Ni,ni) tomando ni=Ni/3 y<-sample(100,5) # Muestra de conglomerados # Tamaño de los conglomerados seleccionados tam.cong<-numeric(); for(i in y){tam.cong<-c(tam.cong,sum(D==i))} tam.mues<-round(tam.cong/3) # Tamaños de las muestras a extraer de cada conglomerado # Muestra de la población mues<-numeric() for(i in 1:5){mues<-c(mues,sample(NID[D==y[i]],tam.mues[i]))} cong.media(AL[mues],V=tam.cong,v=tam.mues,N=1500,M=100) cong.media(V[mues],V=tam.cong,v=tam.mues,N=1500,M=100) cong.razon(ING[mues],AL[mues],V=tam.cong,v=tam.mues,N=1500,M=100) # Muestrreo Sistemático.(MS) # Dada la población Fam1500 extraer una muestra sistemática de tamaño 10 # utilizando el método uniforme de paso k. k<-1500/10 gamma<-sample(k,1) x<-numeric(); for(i in 1:10) x<-c(x,gamma+k*(i-1)) # A partir de la muestra anterior estimar la media de gastos de alimentación, AL. ms.media(AL[x],N=1500,k)