Presentar el código que replica los resultados de la tesis "Modelos de regresión gamma generalizada cero–inflacionada para la media con aplicación a gastos en educación", PUCP, 2018, https://tesis.pucp.edu.pe/repositorio/handle/20.500.12404/12999
Una variable semicontinua o cero–inflacionada es aquella que puede tomar valores continuos y no negativos, incluyendo el valor cero con probabilidad no nula. En el análisis de regresión, el modelo de dos partes (MDP) sirve para explicar una variable respuesta semicontinua. Con el MDP se asume que la variable respuesta,
El objetivo de la tesis es estudiar un modelo alternativo al MDP, denominado modelo de regresión cero–inflacionada a la media (MCIM), cuya parametrización permite estimar e interpretar efectos de covariables sobre la media total de la respuesta,
Con el estudio de simulación, encontramos un adecuado desempeño de los estimadores de máxima verosimilitud del MCIM–GG bajo diferentes escenarios definidos según porcentajes de valores ceros de la respuesta y tamaños de muestra. Por último, con el estudio de aplicación, utilizamos MCIM–GG y MDP–GG para estimar los efectos de ciertas covariables sobre gastos en educación en adolescentes participantes del estudio Niños del Milenio en el Perú.
- Boyden, J. (2022). Young Lives: an International Study of Childhood Poverty: Round 3, 2009. [data collection]. 4th Edition. UK Data Service. SN: 6853, https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6853 :
pe_oc_householdlevel.dta
pe_oc_childlevel.dta
pe_oc_householdmemberlevel.dta
data.xlsx
: Excel con datos finales para el estudio de aplicación.
n | Code file | Type file | Descripción |
---|---|---|---|
1 | masterfile.m |
MATLAB script | Master file que ejecuta de forma ordenada todos los códigos utilizados en la tesis, incluye tanto los códigos del capítulo 4, estudio de simulación, como los del capítulo 5, estudio de aplicación. |
2 | gg.m |
MATLAB function | Función de densidad de la distribución gamma generalizada de acuerdo a la parametrización propuesta por Manning (2005). |
3 | kfun_mcim_gg.m |
MATLAB function | Función de log–verosimilitud del MCIM–GG, su vector gradiente y su matriz hessiana. |
4 | kfun_mcim_g.m |
MATLAB function | Función de log–verosimilitud del MCIM–G, su vector gradiente y su matriz hessiana. |
5 | kfun_mdp_gg.m |
MATLAB function | Función de log–verosimilitud del MDP–GG. |
6 | kfun_mdp_g.m |
MATLAB function | Función de log–verosimilitud del MDP–G. |
7 | ysim_mcim_gg.m |
MATLAB function | Generación de valores simulados de la variable respuesta del MCIM–GG. |
8 | simulacion_generar.m |
MATLAB script | Estudio de simulación (capítulo 4). Generación de bases de datos simulados de la variable respuesta y de las covariables del MCIM–GG. |
9 | simulacion_estimar.m |
MATLAB script | Estudio de simulación (capítulo 4). Estimación del modelo MCIM–GG con cada una de las bases de datos simulados. |
10 | aplicacion.m |
MATLAB script | Estudio de aplicación (capítulo 5). Estimación de los modelos MCIM–GG y MDP–GG. |
11 | variables.do |
STATA do–file | Construcción de las variables del estudio de aplicación. Output file: data.xlsx |
12 | analisisexp.R |
R script | Análisis exploratorio de datos. Output files: figura51.jpg , cuadro51.csv y figura52.jpg |
13 | aplicacion.sas |
SAS program | Estudio de aplicación (capítulo 5). Estimación del modelo MDP–GG. Output: cuadro53.pdf |
“El reporte sube el valor agregado del algoritmo”
Capítulo 4. Estudio de simulación.
-
cuadro41.csv
cuadro41.mat
: Cuadro 4.1 Resultados de simulación MCIM–GG donde porcentaje de ceros 10% -
cuadro42.csv
cuadro42.mat
: Cuadro 4.2 Resultados de simulación MCIM–GG donde porcentaje de ceros 20% -
cuadro43.csv
cuadro43.mat
: Cuadro 4.3 Resultados de simulación MCIM–GG donde porcentaje de ceros 40% -
graficoa.jpg
graficoa.fig
: Resultados de sesgo relativo (%) de$\omega$ -
graficob.jpg
graficob.fig
: Resultados de sesgo relativo (%) de$\beta$ -
graficoc.jpg
graficoc.fig
: Resultados de RECM de$\omega$ -
graficod.jpg
graficod.fig
: Resultados de RECM de$\beta$
Capítulo 5. Estudio de aplicación.
grafico51.jpg
: Gráfico 5.1 Histograma de gasto en educacióncuadro51.csv
: Cuadro 5.1 Características de los adolescentes según decisión de gastargrafico52.jpg
: Gráfico 5.2 Gráficos de cajas y dispersión de gasto en educacióncuadro52.csv
cuadro52.mat
: Cuadro 5.2 Estimación de coeficientes de MCIM–GGcuadro53.pdf
: Cuadro 5.3 Estimación de coeficientes de MDP–GGcuadro54.csv
cuadro54.mat
: Cuadro 5.4 Criterios de información de los modelos
vasquezbeltran_tesis.pdf
: documento finalvasquezbeltran_tesispresentacion.pdf
- Bayes, C. L. y Valdivieso, L. H. (2016). A beta inflated mean regression model for fractional response variables, Journal of Applied Statistics 43(10): p. 1814-1830. https://www.tandfonline.com/doi/abs/10.1080/02664763.2015.1120711
- Smith, V., Preisser, J. S., Neelon, B. y Maciejewski, M. L. (2014). A marginalized two-part model for semicontinuous data, Statistics in Medicine 33: p. 4891-4903. https://onlinelibrary.wiley.com/doi/10.1002/sim.6263
- Manning, G. W., Basu, A. y Mullahy, J. (2005). Generalized modeling approaches to risk adjustment of skewed outcomes data, Journal of Health Economics 24: p. 465-488. https://www.sciencedirect.com/science/article/abs/pii/S0167629605000056?via%3Dihub