Formato de entrega
El objetivo específico del proyecto es determinar la relación existente entre una variable dependiente y una o más variables independientes utilizando regresión logística múltiple.
Para la realización de este proyecto se contemplan las siguientes actividades:
- Elegir una base de datos apropiada de Kaggle para el análisis de regresión logística.
- Realizar análisis descriptivo, e.g., cómo se distribuyen las variables, datos faltantes, conteo para la variable target (para evaluar si hay un desbalance de clases).
- Realizar selección de variables con Método de Regularización L1 (Lasso) previo a la regresión logística. En esta notebook explico cómo.
- Explica brevemente qué es el
penalty
, qué tipos depenalty
hay para LASSO y sus diferencias. - Dividir la base de datos en conjuntos de entrenamiento (train) y prueba (test).
- Entrenar un modelo de regresión logística múltiple con el conjunto de entrenamiento.
- Probar el modelo con el conjunto de prueba y obtener métricas relevantes.
- Decidir si el modelo necesita alguna técnica como SMOTE para corregir el desbalance de clases.
- Interpretar los resultados obtenidos (analizar qué significan los estimadores, determinar qué variables tienen un impacto positivo o negativo en la respuesta, etc.).
- Realizar conclusiones en base a los resultados.
a) Reporte que valide la realización de las actividades.
- El reporte de trabajo realizado se entregará en digital (CANVAS) en un documento elaborado en computadora (no fotografías de hojas o cuadernos) e incluirá como mínimo:
- Portada.
- Introducción.
- Descripción de la base de datos.
- Objetivo.
- Desarrollo.
- Resultados.
- Conclusiones.
- Incluir el link para acceder a la base de datos en Kaggle y el código que generaron para la realización del proyecto.