Resumen del Capítulo 3

En el Capítulo 3, profundizamos en los aspectos fundamentales de la preparación de datos y la ingeniería de características, que son esenciales para construir modelos efectivos de aprendizaje automático. Este capítulo sentó las bases para transformar datos sin procesar en entradas significativas que mejoran el rendimiento del modelo. Resumamos los puntos clave cubiertos.

Comenzamos con el concepto de limpieza de datos y la importancia de manejar los datos faltantes. Los conjuntos de datos del mundo real a menudo contienen valores faltantes que, si no se tratan, pueden afectar negativamente el rendimiento del modelo. Exploramos varias técnicas para abordar los datos faltantes, como eliminar filas con valores faltantes o imputar datos faltantes mediante métodos estadísticos como la imputación por media o mediana. También cubrimos técnicas avanzadas como la imputación por K-nearest neighbors (KNN), que utiliza los vecinos más cercanos para estimar los valores faltantes en función de los datos circundantes.

Luego, nos adentramos en la ingeniería de características, que implica crear nuevas características o transformar las existentes para mejorar el poder predictivo del conjunto de datos. Una de las técnicas clave que cubrimos fue la creación de términos de interacción, que capturan las relaciones entre diferentes características. También discutimos la generación de características polinómicas para modelar relaciones no lineales y el uso de transformaciones logarítmicas para manejar distribuciones sesgadas de datos, especialmente en características como ingresos o ventas, donde los valores pueden abarcar varios órdenes de magnitud.

Otra parte esencial de la preparación de datos es la codificación de datos categóricos. Los algoritmos de aprendizaje automático requieren entradas numéricas, por lo que las características categóricas deben transformarse. Cubrimos la codificación one-hot para datos nominales y la codificación ordinal para datos categóricos, asegurando que las categorías se representen adecuadamente. También analizamos el manejo de características categóricas de alta cardinalidad con técnicas como la codificación por frecuencia y la codificación por objetivo.

Se discutió en profundidad el escalado y la normalización de datos, enfocándonos en la necesidad de llevar las características a una escala común. Se introdujeron técnicas como el escalado min-max, la estandarización y el escalado robusto, cada una de las cuales tiene propósitos específicos según los datos y el modelo de aprendizaje automático en uso. También exploramos las transformaciones de potencia, como Box-Cox y Yeo-Johnson, que estabilizan la varianza y hacen que las características tengan una distribución más normal.

El capítulo también cubrió la importancia de dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo. Introdujimos el concepto de división de entrenamiento y prueba y profundizamos en la validación cruzada, particularmente en la validación cruzada k-fold, para garantizar que los modelos se generalicen bien en diferentes subconjuntos de los datos. Exploramos la validación cruzada estratificada para manejar conjuntos de datos desbalanceados y discutimos la validación cruzada anidada para la optimización de hiperparámetros.

Finalmente, exploramos técnicas de aumento de datos tanto para imágenes como para texto. Para los datos de imagen, se introdujeron técnicas como rotación, volteo y escalado para aumentar artificialmente el tamaño del conjunto de datos y mejorar la generalización del modelo. Para los datos textuales, se discutieron técnicas de aumento como el reemplazo de sinónimos y la retrotraducción, lo que permite que los modelos manejen diferentes estructuras de oraciones y variaciones en el vocabulario.

En conclusión, la preparación de datos y la ingeniería de características son fundamentales para mejorar el rendimiento de los modelos. Al garantizar que los datos estén limpios, escalados, codificados y aumentados correctamente, puedes mejorar significativamente la precisión y la robustez de tus modelos de aprendizaje automático.