Consigna
1) Elegir un dataset
2) Construir el csv con el formato adecuado para ser leído con pandas
En una notebook realizar lo siguiente:
3) Cargar el dataset
4) Describir las variables (si son categóricas, numéricas, etc), cantidad muestras.
5) Chequear que no haya datos faltantes o erroneos. Eliminar filas con datos faltantes, erroneos o raros.
6) Elegir las variables de interés.
7) Mostrar medidas de localización y dispersión para esas variables, construir histogramas, gráfico de caja y/o tablas de contingencia según corresponda. Si lo considera necesario, establecer un intervalo de confianza para la media de alguna de las variables.
8) Realizar un pairplot para analizar gráficamente la relación entre las variables.
9) Realizar al menos un test de hipótesis, ejemplos:
- La media de la variable "x" es mayor a 5.8 valor
- La media de la variable "y" es 50.2
- La media de la variable "z" obtenida en el sitio A es igual a la media obtenida en el sitio "B"
Calcular el p-valor. ¿Qué conclusión sacan?
9 alternativo) Si encuentro un par de variables que tienen una aparente correlación lineal, realizar una regresión lineal e informar el . ¿Qué conclusión sacan?