1) Elegir un dataset

2) Construir el csv con el formato adecuado para ser leído con pandas

En una notebook realizar lo siguiente:

3) Cargar el dataset

4) Describir las variables (si son categóricas, numéricas, etc), cantidad muestras.

5) Chequear que no haya datos faltantes o erroneos. Eliminar filas con datos faltantes, erroneos o raros.

6) Elegir las variables de interés.

7) Mostrar medidas de localización y dispersión para esas variables, construir histogramas, gráfico de caja y/o tablas de contingencia según corresponda. Si lo considera necesario, establecer un intervalo de confianza para la media de alguna de las variables.

8) Realizar un pairplot para analizar gráficamente la relación entre las variables.

9) Incluir la solución al problema específico que se haya elegido, test de hipótesis basado en una muestra, test de hipótesis basado en dos muestras, regresión lineal, regresión logística, gráfico geolocalizado, etc...

Última modificación: miércoles, 22 de mayo de 2024, 09:15