Compare commits
4 commits
149376b8b5
...
1ffd1f0630
Author | SHA1 | Date | |
---|---|---|---|
|
1ffd1f0630 | ||
|
b1367ba95f | ||
|
f0c39fbe98 | ||
|
06a424d18c |
3 changed files with 78 additions and 0 deletions
1
.gitignore
vendored
Normal file
1
.gitignore
vendored
Normal file
|
@ -0,0 +1 @@
|
|||
*~
|
60
src/exploratorio/explorar.py
Normal file
60
src/exploratorio/explorar.py
Normal file
|
@ -0,0 +1,60 @@
|
|||
import numpy as np
|
||||
import pandas as pd
|
||||
|
||||
|
||||
class BaseDeDatos:
|
||||
"""Clase que manipula los datos trabajados."""
|
||||
|
||||
def __init__(self):
|
||||
"""Función que inicializa la clase.
|
||||
Se establecen los métodos que se deben ejecutar al inicializar la clase.
|
||||
"""
|
||||
|
||||
self.leer_datos()
|
||||
self.definir_variables()
|
||||
self.preprocesar_datos()
|
||||
self.visualizar_basicos()
|
||||
self.imprimir_atributos_agrupados()
|
||||
|
||||
def leer_datos(self):
|
||||
"""Método que lee los datos."""
|
||||
|
||||
data_path = "../../data/dvgm.csv"
|
||||
self.df = pd.read_csv(data_path)
|
||||
|
||||
def definir_variables(self):
|
||||
"""Método que define variables necesarias respecto a los datos."""
|
||||
|
||||
self.atributos = self.df.columns.values
|
||||
|
||||
def preprocesar_datos(self):
|
||||
"""Método que preprocesa los datos que lo requieren."""
|
||||
self.df.loc[:, "fecha_completa"] = self.df.loc[:, "fecha"] + \
|
||||
" " + self.df.loc[:, "hora_recepcion"]
|
||||
|
||||
self.df.loc[:, "fecha_completa"] = pd.to_datetime(
|
||||
self.df.loc[:, "fecha_completa"], format="%d/%m/%y %H:%M:%S")
|
||||
|
||||
def visualizar_basicos(self):
|
||||
"""Método que imprime una visualización básica de los datos."""
|
||||
|
||||
print("Visualización de la base de datos")
|
||||
print(self.df)
|
||||
|
||||
print("\nVisualización de los atributos")
|
||||
print(self.atributos)
|
||||
|
||||
print("\nVisualización de los tipos de datos")
|
||||
print(self.df.info())
|
||||
|
||||
def imprimir_atributos_agrupados(self):
|
||||
"""Método que imprime los valores de cada atributo y su respectivo conteo."""
|
||||
|
||||
for atributo in self.atributos:
|
||||
recopilado = self.df.groupby(atributo).count().iloc[:, 0].copy()
|
||||
print("\n\nAtributo agrupado: {}\n".format(atributo))
|
||||
print(recopilado)
|
||||
|
||||
|
||||
if __name__ == "__main__":
|
||||
bd = BaseDeDatos()
|
17
src/exploratorio/preguntas.md
Normal file
17
src/exploratorio/preguntas.md
Normal file
|
@ -0,0 +1,17 @@
|
|||
¿Quiénes son las personas que reciben los reportes?
|
||||
¿Qué capacitación tienen?
|
||||
¿Dónde vacían la información?
|
||||
¿Por qué no hay datos antes de 2017?
|
||||
¿Existen datos que no estén digitalizados?
|
||||
¿Qué preprocesamiento se realizó antes de publicar los datos?
|
||||
¿Las corporaciones llenan algún dato?
|
||||
|
||||
Específicas sobre la información en la base de datos
|
||||
- Clarificar los valores de los atributos:
|
||||
- corporación
|
||||
- descripción_cierre
|
||||
- vía_recepción
|
||||
¿Es posible obtener el tiempo de duración de la llamada?
|
||||
¿Es posible obtener el tiempo de llegada al punto de reporte?
|
||||
|
||||
|
Loading…
Reference in a new issue