5.4 Qué puede salir mal

Abordar datos desequilibrados es crucial para construir modelos efectivos de aprendizaje automático, especialmente en áreas como la detección de fraudes y el diagnóstico médico, donde los desequilibrios de clases son comunes. Sin embargo, técnicas como SMOTE, el pesado de clases y métodos específicos de validación cruzada pueden presentar desafíos si no se implementan cuidadosamente. A continuación, se describen posibles problemas y estrategias para mitigarlos.

5.4.1 Sobreajuste por sobremuestreo excesivo con SMOTE

Aunque SMOTE (Synthetic Minority Oversampling Technique) genera muestras sintéticas para la clase minoritaria, el sobremuestreo puede llevar al sobreajuste, especialmente en conjuntos de datos pequeños. El sobreajuste ocurre cuando el modelo “memoriza” las muestras sintéticas, que pueden ser demasiado similares a los puntos de datos existentes, y no logra generalizar de manera efectiva.

Qué puede salir mal:

El modelo puede mostrar una alta precisión en el conjunto de entrenamiento pero tener un mal desempeño en datos nuevos.
Las muestras sintéticas demasiado similares entre sí pueden llevar al modelo a detectar patrones falsos en la clase minoritaria, generando predicciones sesgadas.

Solución:

Usa SMOTE en combinación con submuestreo de la clase mayoritaria o prueba variaciones de SMOTE como SMOTEENN o SMOTETomek, que equilibran los datos eliminando muestras redundantes o en el límite de clase.
Realiza validación cruzada para asegurarte de que el sobremuestreo no resulte en un rendimiento artificialmente alto.

5.4.2 Desalineación del pesado de clases en la validación cruzada

El pesado de clases aborda los desequilibrios dando más peso a los errores de la clase minoritaria, pero puede estar desalineado con ciertas estrategias de validación cruzada. Esto puede llevar a un rendimiento inconsistente entre particiones, especialmente en conjuntos de datos pequeños o muy desequilibrados.

Qué puede salir mal:

El modelo puede tener un desempeño inconsistente entre las particiones de la validación cruzada si la distribución de clases varía significativamente entre ellas.
El pesado de clases puede generar métricas de rendimiento engañosas si no se gestiona cuidadosamente en la validación cruzada.

Solución:

Usa Validación Cruzada con Estratificación para asegurar una distribución consistente de clases en las particiones. Esto garantiza métricas de rendimiento más estables.
Monitorea regularmente el desempeño en la clase minoritaria usando métricas como precisión, recall y puntaje F1 para evaluar cómo el pesado de clases maneja los desequilibrios.

5.4.3 Intensidad computacional de SMOTE con conjuntos de datos grandes

SMOTE requiere cálculos de vecinos más cercanos para generar muestras sintéticas, lo cual puede ser computacionalmente exigente en conjuntos de datos grandes. A medida que aumenta el tamaño del conjunto de datos, SMOTE puede ralentizarse considerablemente, dificultando la integración en flujos de trabajo en tiempo real o de alto rendimiento.

Qué puede salir mal:

Los tiempos de procesamiento largos pueden dificultar la iteración en el desarrollo del modelo, haciendo más difícil experimentar y ajustar otros aspectos del modelo.
En conjuntos de datos muy grandes, SMOTE puede provocar problemas de memoria o incluso hacer que el sistema se bloquee.

Solución:

Considera usar sobremuestreo aleatorio o submuestreo en lugar de SMOTE si el conjunto de datos es demasiado grande. También puedes aplicar SMOTE a un subconjunto representativo de los datos o reducir el parámetro k_neighbors para disminuir los costos computacionales.
Explora marcos de procesamiento distribuido o paralelo, como Dask o PySpark, que pueden manejar SMOTE de manera más eficiente en conjuntos de datos grandes.

5.4.4 Fugas de datos en validación cruzada de series temporales con SMOTE

Aplicar SMOTE u otras técnicas de re-muestreo en datos de series temporales puede llevar a fugas de datos si las muestras sintéticas del futuro “se filtran” en el conjunto de entrenamiento de predicciones pasadas. Esto puede generar estimaciones de rendimiento excesivamente optimistas.

Qué puede salir mal:

Las fugas de datos pueden conducir a una alta precisión artificial, ya que el modelo aprende involuntariamente de datos a los que no tendría acceso en un escenario real.
El modelo puede no generalizar de manera efectiva porque depende de información que no estará disponible en la práctica.

Solución:

Evita usar SMOTE con datos de series temporales o aplícalo solo en un enfoque de ventana deslizante donde el conjunto de prueba siempre siga al conjunto de entrenamiento en el tiempo.
Considera usar TimeSeriesSplit con pesado de clases, lo que permite un flujo cronológico natural de datos sin introducir muestras sintéticas que puedan causar fugas.

5.4.5 Mala interpretación de métricas de evaluación en datos desequilibrados

La precisión por sí sola puede ser una métrica engañosa para datos desequilibrados, ya que no refleja qué tan bien el modelo predice la clase minoritaria. Una alta precisión aún puede indicar un mal desempeño en la clase minoritaria, resultando en un modelo que parece exitoso pero es inefectivo en la práctica.

Qué puede salir mal:

Confiar en la precisión puede ocultar la incapacidad del modelo para predecir la clase minoritaria, llevando a fallos en el despliegue en aplicaciones críticas.
Métricas engañosas pueden hacer que las partes interesadas sobreestimen el desempeño del modelo y tomen decisiones incorrectas basadas en información errónea.

Solución:

Usa métricas como precisión, recall y puntaje F1 para evaluar modelos en conjuntos de datos desequilibrados, ya que estas ofrecen una visión más clara del desempeño en la clase minoritaria.
Considera métricas como ROC-AUC y Precision-Recall AUC, que son más apropiadas para datos desequilibrados y brindan información sobre el comportamiento del umbral de clasificación del modelo.

5.4.6 Cambios en el desequilibrio de clases con el tiempo

Las distribuciones de clases pueden cambiar con el tiempo, especialmente en campos dinámicos como la detección de fraudes o el análisis del comportamiento del usuario. Un modelo entrenado en una distribución pasada puede no generalizar bien si el desequilibrio de clases cambia.

Qué puede salir mal:

El desempeño del modelo puede degradarse en aplicaciones en tiempo real si encuentra una distribución de clases actualizada que difiere significativamente de sus datos de entrenamiento.
Los cambios en el desequilibrio de clases pueden aumentar los falsos positivos o falsos negativos, dependiendo de qué clase se vuelva más prominente.

Solución:

Monitorea el desempeño del modelo a lo largo del tiempo y considera usar aprendizaje incremental o volver a entrenar el modelo periódicamente para reflejar los cambios en la distribución de clases.
Usa un seguimiento en tiempo real de métricas para observar tendencias en el desempeño del modelo, particularmente en las predicciones de la clase minoritaria, y ajusta el modelo si la distribución cambia.

Conclusión

Abordar datos desequilibrados con métodos como SMOTE y el pesado de clases puede mejorar significativamente el desempeño del modelo, pero estas técnicas presentan sus propios desafíos. Monitoreando cuidadosamente las fugas de datos, ajustando la intensidad computacional, eligiendo las métricas correctas y manteniendo conciencia de los cambios en las distribuciones de clases, puedes usar estas técnicas de manera efectiva para mejorar tus modelos de forma equilibrada e interpretable.