3.1 Limpieza de Datos

Bienvenidos, queridos lectores, al emocionante mundo del Preprocesamiento de Datos. Esta es una etapa crucial en el viaje de construir modelos de aprendizaje automático. En esta etapa, transformamos datos crudos en una forma que pueda ser utilizada para entrenar nuestros modelos. Este proceso es similar a un chef preparando ingredientes antes de cocinar una deliciosa comida. La calidad de nuestros ingredientes (datos) y cómo los preparamos pueden influir significativamente en el sabor (rendimiento) de nuestro plato (modelo).

En este capítulo, exploraremos diversas técnicas y métodos utilizados para preprocesar datos. Comenzaremos discutiendo la importancia de la limpieza de datos y cómo identificar y manejar valores faltantes, valores atípicos e inconsistencias en nuestros datos. Luego avanzaremos hacia la ingeniería de características, donde aprenderemos cómo extraer información útil de los datos crudos y crear nuevas características que pueden mejorar el rendimiento de nuestros modelos.

A continuación, abordaremos el desafío de manejar datos categóricos, donde aprenderemos diversas técnicas de codificación que pueden convertir variables categóricas en valores numéricos que pueden ser utilizados por nuestros modelos. También discutiremos la importancia de la escalación y normalización de características y cómo pueden mejorar el rendimiento de nuestros modelos. Finalmente, aprenderemos cómo dividir nuestros datos en conjuntos de entrenamiento y prueba, que es un paso crítico en la evaluación del rendimiento de nuestros modelos.

Al final de este capítulo, tendrás un sólido entendimiento de las diversas técnicas y métodos utilizados para preprocesar datos. Estarás equipado con el conocimiento y las habilidades necesarias para preparar tus datos para entrenar modelos de aprendizaje automático que puedan hacer predicciones precisas y proporcionar información valiosa. ¡Así que sumérgete y explora el fascinante mundo del Preprocesamiento de Datos!

Así que, ¡remanguemos las mangas y sumerjámonos en el fascinante mundo del preprocesamiento de datos!

La limpieza de datos, también conocida como depuración de datos, es un proceso esencial que implica identificar y corregir registros corruptos o inexactos en un conjunto de datos. Es comparable a ordenar una habitación antes de decorarla; sienta las bases para un espacio limpio y organizado en el que trabajar, lo que es crucial para un análisis y toma de decisiones precisos.

Además de detectar y corregir errores en los datos, la limpieza de datos incluye el manejo de datos faltantes, la eliminación de duplicados y el tratamiento de valores atípicos. Los datos faltantes pueden ser particularmente problemáticos, ya que pueden sesgar los resultados y afectar la precisión de los análisis.

La eliminación de duplicados es importante porque los registros duplicados también pueden afectar la validez de los análisis de datos. Los valores atípicos, o valores que están fuera del rango esperado de valores, también pueden causar problemas en el análisis de datos. Al identificar y abordar estos problemas, la limpieza de datos asegura que los conjuntos de datos sean confiables y se puedan utilizar para tomar decisiones informadas.

La limpieza de datos es un paso vital en el proceso de análisis de datos, ya que ayuda a garantizar que los datos que se utilizan sean precisos y confiables. Sin una limpieza de datos adecuada, los análisis pueden estar sesgados y las decisiones basadas en los datos pueden ser inexactas. Por lo tanto, es importante tomarse el tiempo para limpiar y preparar cuidadosamente los datos antes de realizar cualquier análisis.

Los datos faltantes son un problema común en los conjuntos de datos del mundo real. Es importante manejar los datos faltantes de manera adecuada para evitar sesgos y garantizar que los resultados del análisis sean precisos y confiables.

Una forma de manejar los datos faltantes es eliminar las filas con datos faltantes. Sin embargo, esto puede resultar en una pérdida de información valiosa y puede llevar a resultados sesgados si los datos faltantes no son aleatorios.

Otra forma de manejar los datos faltantes es llenar los valores faltantes con un valor específico. Esto se puede hacer imputando la media, mediana o moda de los datos disponibles. Si bien este método es simple, es posible que no represente con precisión los datos faltantes y puede llevar a resultados sesgados.

Utilizar métodos estadísticos para estimar los valores faltantes es otra forma de manejar los datos faltantes. Este método implica utilizar modelos de regresión u otros algoritmos de aprendizaje automático para predecir los valores faltantes en función de los datos disponibles. Si bien este método puede ser más preciso que llenar los valores faltantes con un valor específico, requiere más recursos computacionales y puede ser más difícil de implementar.

La mejor forma de manejar los datos faltantes depende del conjunto de datos específico y de los objetivos del análisis. Es importante considerar cuidadosamente las opciones disponibles y elegir un método que produzca resultados precisos y confiables.

Ejemplo:

Veamos cómo podemos manejar los datos faltantes utilizando Pandas:

import pandas as pd
import numpy as np

# Create a DataFrame with missing values
df = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [4, np.nan, 6],
    'C': [7, 8, 9]
})

print("Original DataFrame:")
print(df)

# Remove rows with missing values
df_dropped = df.dropna()
print("\nDataFrame after dropping rows with missing values:")
print(df_dropped)

# Fill missing values with a specific value
df_filled = df.fillna(0)
print("\nDataFrame after filling missing values with 0:")
print(df_filled)

# Fill missing values with mean of the column
df_filled_mean = df.fillna(df.mean())
print("\nDataFrame after filling missing values with mean of the column:")
print(df_filled_mean)

Salida:

Original DataFrame:

   A  B  C
0  1  4  7
1  2  NaN  8
2  NaN  6  9

DataFrame after dropping rows with missing values:

   A  B  C
0  1  4  7
2  NaN  6  9

DataFrame after filling missing values with 0:

   A  B  C
0  1  4  7
1  2  0  8
2  0  6  9

DataFrame after filling missing values with mean of the column:

   A  B  C
0  1  4  7
1  2  4.5  8
2  4.5  6  9

El código primero importa los módulos pandas y numpy como pd y np, respectivamente. Luego, el código crea un DataFrame llamado df con las columnas A, B y C, y los valores [1, 2, np.nan], [4, np.nan, 6], [7, 8, 9]. A continuación, el código imprime el DataFrame original.

El código luego elimina las filas con valores faltantes utilizando el método dropna. Luego, imprime el DataFrame después de eliminar las filas con valores faltantes.

Posteriormente, el código rellena los valores faltantes con un valor específico de 0 utilizando el método fillna. A continuación, imprime el DataFrame después de rellenar los valores faltantes con 0.

Luego, el código rellena los valores faltantes con la media de la columna utilizando el método fillna. A continuación, imprime el DataFrame después de rellenar los valores faltantes con la media de la columna.

3.1.1 Manejo de Duplicados

Los datos duplicados pueden ocurrir por diversas razones y pueden ser problemáticos si no se manejan adecuadamente. Es esencial identificar la causa de la duplicación para evitar que el mismo problema ocurra nuevamente. Una razón para los datos duplicados es el error humano, como cuando dos personas diferentes ingresan los mismos datos dos veces, lo que puede llevar a inconsistencias en los datos.

Otra razón puede ser problemas técnicos, como cuando el software no reconoce que los datos ya existen en el sistema. Independientemente de la razón, es importante eliminar estos duplicados para evitar que sesguen su análisis. Al hacerlo, puede asegurarse de que sus datos sean precisos y que su análisis se base en información confiable.

Así es cómo puede eliminar duplicados utilizando Pandas:

import pandas as pd

# Create a DataFrame with duplicate rows
df = pd.DataFrame({
    'A': [1, 2, 2, 3, 3, 3],
    'B': [4, 5, 5, 6, 6, 6],
    'C': [7, 8, 8, 9, 9, 9]
})

print("Original DataFrame:")
print(df)

# Remove duplicate rows
df_deduplicated = df.drop_duplicates()
print("\nDataFrame after removing duplicates:")
print(df_deduplicated)

Salida:

Original DataFrame:

   A  B  C
0  1  4  7
1  2  5  8
2  2  5  8
3  3  6  9
4  3  6  9
5  3  6  9

DataFrame after removing duplicates:

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9

El código primero importa el módulo pandas como pd. Luego, el código crea un DataFrame llamado df con las columnas A, B y C, y los valores [1, 2, 2, 3, 3, 3]. A continuación, el código imprime el DataFrame original.

Luego, el código elimina las filas duplicadas utilizando el método drop_duplicates. Posteriormente, imprime el DataFrame después de eliminar las filas duplicadas.

La salida muestra que las filas duplicadas han sido eliminadas del DataFrame. Las filas restantes son únicas.

3.1.2 Manejo de Valores Atípicos

Los valores atípicos son observaciones que están significativamente alejadas del resto de los puntos de datos en un conjunto de datos dado. Estas observaciones pueden surgir debido a una amplia variedad de razones, que incluyen la variabilidad de los datos y errores de medición. Es importante manejar los valores atípicos en su proceso de análisis de datos porque pueden sesgar significativamente los resultados de su modelado estadístico.

Afortunadamente, existen numerosos métodos disponibles para detectar y manejar los valores atípicos en su conjunto de datos. Uno de los métodos más simples es el método del puntaje Z, que implica estandarizar el conjunto de datos restando el valor medio y dividiendo por la desviación estándar.

Este método le permite identificar observaciones que están a más de tres desviaciones estándar de la media, que se consideran valores atípicos potenciales. Una vez que haya identificado los valores atípicos, puede decidir cómo manejarlos, ya sea eliminándolos, ajustándolos o utilizando un método estadístico robusto que sea menos sensible a los valores atípicos.

Ejemplo:

Así es como puede eliminar los valores atípicos utilizando el puntaje Z con Scipy:

from scipy import stats
import numpy as np

# Create a numpy array with outliers
data = np.array([1, 2, 2, 2, 3, 1, 2, 3, 3, 4, 4, 4, 20])

# Calculate Z-scores
z_scores = stats.zscore(data)

# Get indices of outliers
outliers = np.abs(z_scores) > 2

# Remove outliers
data_clean = data[~outliers]
print("Data after removing outliers:")
print(data_clean)

Salida:

Data after removing outliers:
[1 2 2 2 3 1 2 3 3 4 4 4]

El código primero importa los módulos scipy.stats y numpy como stats y np, respectivamente. Luego, el código crea un array de NumPy llamado data con los valores [1, 2, 2, 2, 3, 1, 2, 3, 3, 4, 4, 4, 20].

El código luego calcula los puntajes Z para cada valor en el array utilizando la función stats.zscore. Luego, obtiene los índices de los valores que están a más de 2 desviaciones estándar de la media utilizando los operadores np.abs y >.

A continuación, el código elimina los valores atípicos del array utilizando el operador ~ y asigna el array resultante a data_clean. Finalmente, el código imprime el array data_clean.

La salida muestra que el valor atípico de 20 ha sido eliminado del array. Los valores restantes en el array están todos dentro de 2 desviaciones estándar de la media.