5.2 Manejo de Datos Desequilibrados: SMOTE y Ponderación de Clases

Los datos desequilibrados representan un desafío significativo en el aprendizaje automático, particularmente en tareas de clasificación donde una clase supera considerablemente en número a otras. Este desequilibrio puede llevar a que los modelos desarrollen un fuerte sesgo hacia la clase mayoritaria, resultando en un rendimiento deficiente al predecir la clase minoritaria. Para abordar este problema, los científicos de datos emplean diversas técnicas que crean una representación más equilibrada de las clases durante el entrenamiento del modelo.

Dos métodos prominentes para manejar conjuntos de datos desequilibrados son el Técnica de Sobremuestreo de Minorías Sintéticas (SMOTE) y la Ponderación de Clases. SMOTE genera muestras sintéticas para la clase minoritaria, incrementando efectivamente su representación en el conjunto de datos. Esta técnica crea nuevas muestras interpolando entre las existentes de la clase minoritaria, añadiendo diversidad a esta clase sin simplemente duplicar puntos de datos existentes.

Por otro lado, la Ponderación de Clases ajusta la importancia de las diferentes clases durante el proceso de entrenamiento del modelo. Al asignar pesos más altos a la clase minoritaria, el modelo es penalizado más severamente por clasificar erróneamente las muestras de la clase minoritaria, alentándolo a prestar más atención a estas instancias subrepresentadas.

Tanto SMOTE como la Ponderación de Clases buscan mejorar el rendimiento del modelo en conjuntos de datos desequilibrados al abordar el sesgo inherente hacia la clase mayoritaria. Al crear una representación más equilibrada de las clases, estas técnicas permiten que los modelos reconozcan y predigan con mayor precisión las instancias de la clase minoritaria. Esto no solo mejora la precisión general, sino que también reduce el riesgo de sesgo en las predicciones del modelo, lo cual es crucial en muchas aplicaciones del mundo real, como la detección de fraudes, el diagnóstico médico y la predicción de eventos raros.

La elección entre SMOTE y la Ponderación de Clases a menudo depende de las características específicas del conjunto de datos y la tarea de modelado en cuestión. SMOTE es particularmente útil para conjuntos de datos altamente desequilibrados donde la clase minoritaria está gravemente subrepresentada, mientras que la Ponderación de Clases puede ser más adecuada para conjuntos de datos moderadamente desequilibrados o cuando los recursos computacionales son limitados. En algunos casos, una combinación de ambas técnicas puede ofrecer los mejores resultados.

5.2.1 El desafío de los datos desequilibrados

Consideremos un conjunto de datos de detección de fraudes donde el 98% de las transacciones son legítimas y solo el 2% son fraudulentas. Este desequilibrio extremo representa un desafío significativo para los modelos de aprendizaje automático. Sin estrategias adecuadas de equilibrio, los modelos tienden a desarrollar un fuerte sesgo hacia la clase mayoritaria (transacciones legítimas), lo que lleva a un rendimiento subóptimo al detectar fraudes reales.

Las implicaciones de este desequilibrio son de gran alcance. Un modelo entrenado con estos datos sesgados podría lograr una precisión aparentemente impresionante del 98% simplemente prediciendo que todas las transacciones son legítimas. Sin embargo, esta alta precisión es engañosa, ya que no captura la incapacidad del modelo para identificar actividades fraudulentas, que es el objetivo principal en los sistemas de detección de fraudes.

Este escenario destaca una limitación crítica del uso de la precisión como único indicador para evaluar el rendimiento de un modelo en conjuntos de datos desequilibrados. La precisión, en este caso, se convierte en una medida inadecuada y potencialmente engañosa del éxito, ya que no proporciona información sobre la capacidad del modelo para detectar la clase minoritaria (transacciones fraudulentas), que a menudo es la clase de mayor interés en aplicaciones del mundo real.

Para abordar estos desafíos, los científicos de datos emplean diversas técnicas que buscan equilibrar la representación de clases y mejorar la sensibilidad del modelo hacia las clases minoritarias. Estas técnicas se agrupan en tres categorías principales:

Técnicas a nivel de datos: Implican modificar el conjunto de datos para abordar el desequilibrio, como el sobremuestreo de la clase minoritaria, el submuestreo de la clase mayoritaria o una combinación de ambos.
Técnicas a nivel de algoritmo: Consisten en modificar el algoritmo de aprendizaje para hacerlo más sensible a la clase minoritaria. Esto puede incluir ajustar los pesos de las clases, modificar los umbrales de decisión o usar métodos de ensamblaje específicamente diseñados para datos desequilibrados.
Enfoques híbridos: Combinan técnicas a nivel de datos y de algoritmos para obtener resultados óptimos.

Al implementar estas estrategias, podemos desarrollar modelos que no solo sean precisos, sino también efectivos en la identificación de instancias de la clase minoritaria crítica. Este enfoque equilibrado asegura que el rendimiento del modelo se alinee más estrechamente con los objetivos del mundo real, como detectar eficazmente las transacciones fraudulentas en nuestro ejemplo.

5.2.2 Ponderación de clases

La ponderación de clases es una técnica poderosa utilizada para abordar conjuntos de datos desequilibrados en aprendizaje automático. Este método asigna una mayor importancia a la clase minoritaria durante el proceso de entrenamiento, aumentando efectivamente el costo de clasificar erróneamente muestras de este grupo subrepresentado. Al hacerlo, la ponderación de clases ayuda a contrarrestar la tendencia natural de los modelos a favorecer a la clase mayoritaria en conjuntos de datos desequilibrados.

La implementación de la ponderación de clases varía según el algoritmo de aprendizaje automático que se utilice. Muchos algoritmos populares, incluidos Regresión Logística, Bosques Aleatorios y Máquinas de Vectores de Soporte, ofrecen soporte integrado para la ponderación de clases mediante parámetros como class_weight. Este parámetro puede configurarse como 'balanced' para un cálculo automático de pesos basado en las frecuencias de las clases, o especificarse manualmente para dar un control preciso sobre la importancia de cada clase.

Cuando se configura como 'balanced', el algoritmo calcula automáticamente los pesos de manera inversamente proporcional a las frecuencias de las clases. Por ejemplo, si la clase A aparece el doble de veces que la clase B en los datos de entrenamiento, la clase B recibirá el doble de peso que la clase A. Este enfoque asegura que el modelo preste la misma atención a todas las clases, independientemente de su representación en el conjunto de datos.

Alternativamente, los científicos de datos pueden especificar manualmente los pesos de las clases cuando tienen conocimientos específicos sobre la importancia relativa de las distintas clases. Esta flexibilidad permite ajustar el comportamiento del modelo para alinearlo con objetivos comerciales específicos o para tener en cuenta los costos variables de clasificación errónea entre diferentes clases.

Es importante señalar que, si bien la ponderación de clases puede mejorar significativamente el rendimiento de un modelo en conjuntos de datos desequilibrados, debe utilizarse con prudencia. Enfatizar en exceso la clase minoritaria puede llevar al sobreajuste o reducir la precisión general. Por lo tanto, a menudo es beneficioso experimentar con diferentes esquemas de ponderación y evaluar su impacto en el rendimiento del modelo utilizando métricas adecuadas como la puntuación F1, precisión, sensibilidad o el área bajo la curva ROC.

Ejemplo: Ponderación de clases con Regresión Logística

Apliquemos la ponderación de clases a un modelo de Regresión Logística en un conjunto de datos desequilibrado, especificando class_weight='balanced' para asignar automáticamente los pesos según la distribución de las clases.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc
from sklearn.utils.class_weight import compute_class_weight

# Generate an imbalanced dataset
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                           weights=[0.9, 0.1], random_state=42)

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Initialize Logistic Regression with class weighting
model_weighted = LogisticRegression(class_weight='balanced', random_state=42)
model_weighted.fit(X_train, y_train)

# Initialize Logistic Regression without class weighting for comparison
model_unweighted = LogisticRegression(random_state=42)
model_unweighted.fit(X_train, y_train)

# Make predictions
y_pred_weighted = model_weighted.predict(X_test)
y_pred_unweighted = model_unweighted.predict(X_test)

# Evaluate model performance
print("Classification Report with Class Weighting:")
print(classification_report(y_test, y_pred_weighted))
print("\nClassification Report without Class Weighting:")
print(classification_report(y_test, y_pred_unweighted))

# Compute confusion matrices
cm_weighted = confusion_matrix(y_test, y_pred_weighted)
cm_unweighted = confusion_matrix(y_test, y_pred_unweighted)

# Plot confusion matrices
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
ax1.imshow(cm_weighted, cmap='Blues')
ax1.set_title("Confusion Matrix (Weighted)")
ax1.set_xlabel("Predicted")
ax1.set_ylabel("Actual")
ax2.imshow(cm_unweighted, cmap='Blues')
ax2.set_title("Confusion Matrix (Unweighted)")
ax2.set_xlabel("Predicted")
ax2.set_ylabel("Actual")
plt.tight_layout()
plt.show()

# Compute ROC curve and AUC
fpr_w, tpr_w, _ = roc_curve(y_test, model_weighted.predict_proba(X_test)[:, 1])
fpr_u, tpr_u, _ = roc_curve(y_test, model_unweighted.predict_proba(X_test)[:, 1])
roc_auc_w = auc(fpr_w, tpr_w)
roc_auc_u = auc(fpr_u, tpr_u)

# Plot ROC curve
plt.figure()
plt.plot(fpr_w, tpr_w, color='darkorange', lw=2, label=f'Weighted ROC curve (AUC = {roc_auc_w:.2f})')
plt.plot(fpr_u, tpr_u, color='green', lw=2, label=f'Unweighted ROC curve (AUC = {roc_auc_u:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()

# Display class weights
class_weights = compute_class_weight('balanced', classes=np.unique(y_train), y=y_train)
print("\nComputed class weights:")
for i, weight in enumerate(class_weights):
    print(f"Class {i}: {weight:.2f}")

Este ejemplo de código proporciona una demostración completa del uso del pesado de clases en la Regresión Logística para conjuntos de datos desequilibrados. A continuación, se desglosan los componentes clave y sus propósitos:

Generación y Preprocesamiento de Datos:
- Utilizamos make_classification para crear un conjunto de datos desequilibrado con una proporción de 90:10 entre clases.
- Los datos se dividen en conjuntos de entrenamiento y prueba utilizando train_test_split.
Creación y Entrenamiento del Modelo:
- Se crean dos modelos de Regresión Logística: uno con pesado de clases (class_weight='balanced') y otro sin él.
- Ambos modelos se entrenan con los mismos datos de entrenamiento.
Evaluación del Desempeño:
- Se utiliza classification_report para mostrar precisión, recall y puntaje F1 de ambos modelos.
- Se calculan y visualizan matrices de confusión para mostrar la distribución de predicciones correctas e incorrectas.
Análisis de la Curva ROC:
- Se grafican las curvas ROC (Receiver Operating Characteristic) de ambos modelos.
- Se calcula el Área Bajo la Curva (AUC) para cuantificar el desempeño de los modelos.
Cálculo de Pesos de Clase:
- Se muestran los pesos de clase calculados para demostrar cómo se aplica el pesado equilibrado.

Este ejemplo permite una comparación directa entre los enfoques con y sin pesado de clases, mostrando el impacto del pesado en el desempeño del modelo para conjuntos de datos desequilibrados. Las visualizaciones (matrices de confusión y curvas ROC) ofrecen una comprensión intuitiva del comportamiento de los modelos, mientras que las métricas numéricas proporcionan medidas cuantitativas de rendimiento.

5.2.3 Técnica de Sobremuestreo Sintético de Minorías (SMOTE)

SMOTE (Synthetic Minority Over-sampling Technique) es un método avanzado para abordar el desequilibrio de clases en conjuntos de datos de aprendizaje automático. A diferencia de las técnicas simples de sobremuestreo que duplican muestras existentes de la clase minoritaria, SMOTE crea nuevas muestras sintéticas mediante la interpolación entre las existentes. Este enfoque innovador no solo aumenta la representación de la clase minoritaria, sino que también introduce diversidad valiosa al conjunto de datos.

Cómo funciona SMOTE:

Selección de Vecinos:
Para cada muestra de la clase minoritaria, SMOTE identifica sus k vecinos más cercanos (típicamente k=5).
Creación de Muestras Sintéticas:
SMOTE selecciona aleatoriamente uno de estos vecinos y crea una nueva muestra interpolando en el segmento de línea que conecta la muestra original con el vecino elegido. Este proceso genera un nuevo punto de datos que comparte características con ambas muestras existentes, pero no es una copia exacta de ninguna.
Exploración del Espacio de Características:
Al crear muestras en el espacio de características entre las instancias existentes de la clase minoritaria, SMOTE ayuda al modelo a explorar y aprender límites de decisión en áreas donde la clase minoritaria está subrepresentada.
Equilibrio del Conjunto de Datos:
Este proceso se repite hasta alcanzar el equilibrio deseado entre las clases, generalmente resultando en un número igual de muestras para todas las clases.

La fortaleza de SMOTE radica en su capacidad para crear nuevas muestras significativas en lugar de simples duplicados. Este enfoque ayuda a prevenir el sobreajuste que puede ocurrir con métodos básicos de sobremuestreo, ya que el modelo se expone a un conjunto más diverso de ejemplos de la clase minoritaria. Además, al poblar el espacio de características entre las muestras minoritarias existentes, SMOTE contribuye a crear límites de decisión más sólidos, particularmente en regiones donde la clase minoritaria es escasa.

SMOTE es especialmente eficaz en conjuntos de datos con desequilibrios severos de clases, donde la clase minoritaria está significativamente subrepresentada. Su aplicación ha mostrado mejoras notables en el desempeño de los modelos en diversos dominios, incluyendo la detección de fraudes, diagnóstico médico y predicción de eventos raros, donde la clasificación precisa de instancias minoritarias es crucial.

Ejemplo: Uso de SMOTE con Random Forest

Apliquemos SMOTE para equilibrar un conjunto de datos y entrenar un clasificador Random Forest.

import numpy as np
import matplotlib.pyplot as plt
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

# Generate an imbalanced dataset
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                           weights=[0.9, 0.1], random_state=42)

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Apply SMOTE to create balanced training data
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Train Random Forest on original and SMOTE-resampled data
rf_original = RandomForestClassifier(random_state=42)
rf_original.fit(X_train, y_train)

rf_smote = RandomForestClassifier(random_state=42)
rf_smote.fit(X_train_resampled, y_train_resampled)

# Make predictions
y_pred_original = rf_original.predict(X_test)
y_pred_smote = rf_smote.predict(X_test)

# Evaluate models
print("Classification Report without SMOTE:")
print(classification_report(y_test, y_pred_original))
print("\nClassification Report with SMOTE:")
print(classification_report(y_test, y_pred_smote))

# Compute confusion matrices
cm_original = confusion_matrix(y_test, y_pred_original)
cm_smote = confusion_matrix(y_test, y_pred_smote)

# Plot confusion matrices
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
ax1.imshow(cm_original, cmap='Blues')
ax1.set_title("Confusion Matrix (Original)")
ax1.set_xlabel("Predicted")
ax1.set_ylabel("Actual")
ax2.imshow(cm_smote, cmap='Blues')
ax2.set_title("Confusion Matrix (SMOTE)")
ax2.set_xlabel("Predicted")
ax2.set_ylabel("Actual")
plt.tight_layout()
plt.show()

# Compute ROC curve and AUC
fpr_o, tpr_o, _ = roc_curve(y_test, rf_original.predict_proba(X_test)[:, 1])
fpr_s, tpr_s, _ = roc_curve(y_test, rf_smote.predict_proba(X_test)[:, 1])
roc_auc_o = auc(fpr_o, tpr_o)
roc_auc_s = auc(fpr_s, tpr_s)

# Plot ROC curve
plt.figure()
plt.plot(fpr_o, tpr_o, color='darkorange', lw=2, label=f'Original ROC curve (AUC = {roc_auc_o:.2f})')
plt.plot(fpr_s, tpr_s, color='green', lw=2, label=f'SMOTE ROC curve (AUC = {roc_auc_s:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()

# Display class distribution
print("\nOriginal class distribution:")
print(np.bincount(y_train))
print("\nSMOTE-resampled class distribution:")
print(np.bincount(y_train_resampled))

Este ejemplo demuestra un enfoque integral para utilizar SMOTE con Random Forest en conjuntos de datos desequilibrados. A continuación, se examinan los componentes clave y sus funciones:

Generación y Preprocesamiento de Datos:
- Se utiliza make_classification para crear un conjunto de datos desequilibrado con una proporción de 90:10 entre clases.
- Los datos se dividen en conjuntos de entrenamiento y prueba utilizando train_test_split.
Aplicación de SMOTE:
- SMOTE se aplica solo a los datos de entrenamiento para evitar fugas de datos.
- Esto crea una versión equilibrada del conjunto de entrenamiento.
Creación y Entrenamiento del Modelo:
- Se crean dos modelos de Random Forest: uno entrenado con los datos originales desequilibrados y otro con los datos re-muestreados por SMOTE.
- Ambos modelos se entrenan con sus respectivos conjuntos de datos.
Evaluación del Desempeño:
- Se utiliza classification_report para mostrar precisión, recall y puntaje F1 de ambos modelos.
- Se calculan y visualizan matrices de confusión para mostrar la distribución de predicciones correctas e incorrectas.
Análisis de la Curva ROC:
- Se grafican curvas ROC (Receiver Operating Characteristic) de ambos modelos.
- Se calcula el Área Bajo la Curva (AUC) para cuantificar el desempeño de los modelos.
Visualización de la Distribución de Clases:
- Se muestra la distribución de clases antes y después de aplicar SMOTE para ilustrar cómo el re-muestreo equilibra el conjunto de datos.

Este ejemplo integral permite una comparación directa entre el conjunto de datos desequilibrado original y el enfoque re-muestreado con SMOTE, demostrando el impacto de SMOTE en el desempeño del modelo para conjuntos de datos desequilibrados. Las visualizaciones (matrices de confusión y curvas ROC) ofrecen una comprensión intuitiva del comportamiento de los modelos, mientras que las métricas numéricas proporcionan medidas cuantitativas de rendimiento.

5.2.4 Comparación entre Pesado de Clases y SMOTE

Pesado de Clases es un enfoque directo que ajusta la importancia de las diferentes clases directamente dentro del proceso de entrenamiento del modelo. Este método es computacionalmente eficiente ya que no requiere generar nuevos puntos de datos. Es particularmente efectivo para conjuntos de datos con desequilibrios moderados, donde la clase minoritaria todavía tiene un número razonable de muestras. Al asignar pesos más altos a la clase minoritaria, el modelo se vuelve más sensible a estas instancias durante el entrenamiento, mejorando potencialmente el desempeño general sin alterar la distribución original de los datos.
SMOTE (Synthetic Minority Over-sampling Technique) adopta un enfoque más proactivo para abordar el desequilibrio de clases. Crea ejemplos sintéticos de la clase minoritaria interpolando entre muestras existentes. Este método es especialmente potente para conjuntos de datos altamente sesgados donde la clase minoritaria está severamente subrepresentada. SMOTE incrementa efectivamente la diversidad de la clase minoritaria, proporcionando al modelo un conjunto más rico de ejemplos para aprender. Sin embargo, implica un mayor costo computacional debido a la generación de nuevos puntos de datos. Además, SMOTE puede requerir una integración cuidadosa con ciertos tipos de modelos y puede introducir ruido si no se aplica adecuadamente.

Elección del Método: Al elegir entre estas técnicas, considera factores como el grado de desequilibrio en tu conjunto de datos, los recursos computacionales disponibles y los requisitos específicos de tu tarea de aprendizaje automático. En algunos casos, una combinación de ambas técnicas puede ofrecer los mejores resultados, aprovechando las fortalezas de cada enfoque para crear un modelo más robusto y equitativo.

5.2.5 Consideraciones Prácticas

Aunque SMOTE y el pesado de clases son técnicas efectivas para manejar conjuntos de datos desequilibrados, cada una tiene sus propios desafíos y consideraciones:

Riesgo de Sobreajuste con SMOTE:
La generación de datos sintéticos con SMOTE puede llevar al sobreajuste, especialmente con conjuntos de datos pequeños.
- Solución: Combina SMOTE con técnicas de submuestreo de la clase mayoritaria. Este enfoque híbrido, conocido como SMOTETomek o SMOTEENN, ayuda a mantener la diversidad de datos mientras aborda el desequilibrio de clases.
- Alternativa: Considera el uso de muestreo sintético adaptativo (ADASYN), que se enfoca en generar muestras cerca de los límites de decisión, reduciendo potencialmente los riesgos de sobreajuste.
Costos Computacionales:
Los cálculos de vecinos más cercanos de SMOTE pueden ser intensivos en recursos, particularmente para conjuntos de datos grandes.
- Solución: Aplica SMOTE a un subconjunto representativo de los datos o ajusta el parámetro k_neighbors.
- Alternativa: Explora variantes más eficientes como Borderline-SMOTE o SVM-SMOTE, que se centran en generar muestras cerca de los límites de clase, reduciendo potencialmente la sobrecarga computacional.
Elección de la Técnica Adecuada:
La gravedad del desequilibrio de clases influye en la elección entre el pesado de clases y SMOTE.
- Solución: Realiza experimentos comparativos con ambos enfoques para determinar el método más efectivo para tu conjunto de datos específico.
- Enfoque Híbrido: Considera combinar el pesado de clases con SMOTE. Esto puede proporcionar los beneficios de ambas técnicas, permitiendo la generación de datos sintéticos mientras se enfatiza la importancia de las muestras de la clase minoritaria en el proceso de entrenamiento del modelo.

Para mejorar aún más el desempeño del modelo en conjuntos de datos desequilibrados, considera las siguientes estrategias adicionales:

Métodos de Ensamble: Técnicas como BalancedRandomForestClassifier o EasyEnsembleClassifier pueden ser particularmente efectivas para conjuntos de datos desequilibrados, combinando las fortalezas de múltiples modelos.
Enfoques de Detección de Anomalías: Para desequilibrios extremos, reformular el problema como una tarea de detección de anomalías en lugar de un problema de clasificación tradicional puede dar mejores resultados.
Aumento de Datos: En dominios donde sea aplicable, como la clasificación de imágenes, las técnicas de aumento de datos pueden usarse junto con SMOTE para diversificar aún más la clase minoritaria.

El objetivo final es crear un modelo que generalice bien a nuevos datos no vistos mientras mantiene un alto desempeño en todas las clases. Esto a menudo requiere una combinación de técnicas, validación cruzada cuidadosa y consideraciones específicas del dominio para lograr resultados óptimos.