9.2 Ingeniería de Características

9.2.1 ¿Qué es la Ingeniería de Características?

La ingeniería de características es un aspecto crucial del aprendizaje automático que implica la creación de nuevas características a partir de las existentes, así como la selección solo de las características más relevantes que contribuyen al rendimiento del modelo. Este proceso puede implicar transformar características en una forma más adecuada, como escalarlas o normalizarlas. Al hacerlo, nuestro objetivo es mejorar la precisión, el poder predictivo o la interpretabilidad del modelo.

La ingeniería de características es un proceso complejo e iterativo que requiere una comprensión profunda del dominio del problema y los datos. Involucra probar diferentes combinaciones de características, analizar su impacto en el modelo y ajustar el conjunto de características para optimizar el rendimiento del modelo.

Además, la ingeniería de características no es una tarea única, sino más bien un proceso continuo que requiere monitoreo y mejora continuos para garantizar que el modelo siga siendo relevante y efectivo.

9.2.2 Tipos de Ingeniería de Características

1. Características Polinomiales

A veces, al tratar la relación entre el objetivo y la característica, la conexión puede no ser siempre lineal. Esto puede hacer que modelar la relación sea un poco más complejo, pero es importante explorar todas las posibilidades para desarrollar el modelo más preciso posible.

Un enfoque posible para modelar relaciones no lineales es mediante la adición de términos polinomiales. Al incluir estos términos, podemos capturar patrones más complejos que pueden no ser evidentes solo con términos lineales. Además, este enfoque puede ayudarnos a evitar el subajuste y el sobreajuste, que pueden ser problemáticos al trabajar con relaciones no lineales.

En general, aunque puede requerir más esfuerzo modelar relaciones no lineales, hacerlo puede ser crucial para desarrollar modelos efectivos que capturen con precisión la verdadera naturaleza de los datos.

Así es como se hace usando Scikit-learn:

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

2. Características de Interacción

Las características de interacción, en el campo del aprendizaje automático, son un aspecto esencial del modelado predictivo. Estas características representan la relación combinada entre múltiples variables y su correlación con la variable objetivo.

Al identificar estas interacciones, podemos obtener una comprensión más profunda de los patrones subyacentes en los datos y desarrollar modelos más precisos. Por ejemplo, si estamos tratando de predecir las ventas de un producto en particular, podríamos usar características de interacción que capturen la relación entre el precio del producto, su disponibilidad y la época del año.

Al analizar las interacciones entre estas variables, podemos predecir mejor las ventas y refinar nuestras estrategias de marketing para maximizar la rentabilidad.

Ejemplo en Python:

# Create a new feature by multiplying two existing features
df['interaction_feature'] = df['feature1'] * df['feature2']

3. Binning

A veces, al trabajar con características numéricas, puede ser útil transformarlas en compartimentos discretos. Esto puede facilitar que el modelo capture la información, ya que los datos ahora están agrupados en categorías que pueden ser más fácilmente analizadas e interpretadas.

Al hacer esto, potencialmente puedes descubrir nuevos patrones o relaciones dentro de los datos que no eran previamente evidentes. Además, puede ser útil experimentar con diferentes tamaños de compartimentos o técnicas de agrupamiento, ya que esto también puede afectar el rendimiento del modelo.

En general, aunque puede requerir un esfuerzo adicional al principio para transformar las características numéricas en compartimentos discretos, los beneficios potenciales en términos de precisión e interpretabilidad del modelo pueden valer la pena al final.

Ejemplo:

# Bin ages into intervals
bins = [20, 30, 40, 50, 60]
labels = ['20-29', '30-39', '40-49', '50-59']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)

4. Codificación One-hot

Cuando se tienen datos categóricos, una forma común de hacerlos utilizables en modelos de aprendizaje automático es mediante la codificación one-hot. Esto implica crear una columna binaria para cada categoría posible, con un valor de 1 que indica la presencia de esa categoría en los datos y un valor de 0 que indica su ausencia.

La codificación one-hot puede mejorar enormemente la precisión de los modelos de aprendizaje automático que utilizan datos categóricos, ya que permite que el modelo comprenda y analice correctamente los datos de una manera que de otra forma sería imposible. Además, la codificación one-hot puede ser particularmente útil cuando se trabaja con grandes conjuntos de datos con un gran número de variables categóricas, ya que permite un análisis eficiente y preciso de los datos sin la necesidad de una codificación manual engorrosa.

Sin embargo, hay algunos inconvenientes potenciales en la codificación one-hot, incluida la mayor complejidad computacional y la posibilidad de sobreajuste si los datos contienen demasiadas categorías. No obstante, cuando se utiliza adecuadamente, la codificación one-hot puede ser una herramienta increíblemente poderosa para analizar datos categóricos en modelos de aprendizaje automático.

# One-hot encode the 'species' column
df = pd.get_dummies(df, columns=['species'], drop_first=True)

5. Escalado

Las diferentes características en un conjunto de datos suelen tener diferentes unidades y escalas. Esto se debe a que cada característica se mide de una manera diferente. Por ejemplo, el peso de una persona se mide en kilogramos, mientras que su edad se mide en años. Estas escalas diferentes pueden tener un impacto significativo en el rendimiento del modelo.

Las características con escalas más grandes pueden tener un impacto desproporcionadamente mayor en el modelo en comparación con las características con escalas más pequeñas. Por lo tanto, es importante normalizar las características para que estén en la misma escala antes de entrenar un modelo. La normalización asegura que cada característica sea igualmente importante y contribuya a la salida del modelo de manera equilibrada. Esto puede conducir a un mejor rendimiento del modelo y predicciones más precisas.

Ejemplo:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

6. Transformación Logarítmica

Una transformación logarítmica es un proceso matemático que se puede aplicar a datos numéricos continuos. Este proceso puede ser particularmente útil cuando se trabaja con datos que tienen un amplio rango de valores, ya que puede ayudar a "aplanar" los datos y hacerlos más manejables. Al tomar el logaritmo de los datos, los valores se transforman de una manera que puede ayudar a revelar patrones o relaciones que pueden haber estado ocultos antes.

Además, la transformación logarítmica puede ayudar a reducir el impacto de valores atípicos extremos en el análisis, haciendo que los resultados sean más confiables y robustos. En general, la transformación logarítmica es una herramienta valiosa para analistas de datos e investigadores que trabajan con datos numéricos continuos, y vale la pena considerarla como parte de cualquier flujo de trabajo de análisis de datos.

Ejemplo:

# Apply a log transformation
import numpy as np
df['log_feature1'] = np.log(df['feature1'] + 1)

9.2.3 Consideraciones Clave

Aquí hay algunos detalles adicionales a considerar al crear características para tu modelo:

Comprender el Contexto: Es importante tener un entendimiento profundo del contexto del problema antes de crear características. Esto implica tener en cuenta las necesidades empresariales, los datos disponibles y cualquier restricción que pueda existir.
Colinealidad: Al crear nuevas características, es importante tener cuidado con aquellas que pueden estar altamente correlacionadas con las existentes. Esto puede hacer que tu modelo sea inestable y lleve a predicciones incorrectas. Considera eliminar características redundantes o usar técnicas de reducción de dimensionalidad para abordar la colinealidad.
Sobreajuste: Si bien crear más características puede mejorar potencialmente el rendimiento del modelo, también puede provocar sobreajuste. El sobreajuste ocurre cuando el modelo es demasiado complejo y se ajusta demasiado a los datos de entrenamiento, lo que resulta en una mala generalización a nuevos datos. Siempre verifica el rendimiento del modelo con validación cruzada y considera usar técnicas de regularización para prevenir el sobreajuste.
Complejidad Computacional: Algunos métodos de ingeniería de características pueden aumentar significativamente el tamaño del conjunto de datos, lo que hace que sea computacionalmente costoso entrenar modelos. Esto puede llevar a tiempos de entrenamiento más largos y un mayor uso de recursos. Considera usar métodos como selección o extracción de características para reducir el número de características y mejorar la eficiencia computacional.

La ingeniería de características es un aspecto crucial del aprendizaje automático, ya que implica seleccionar y transformar las variables de entrada más relevantes para mejorar el rendimiento del modelo. Si bien los métodos anteriores ofrecen un enfoque sistemático, el arte de la ingeniería de características va más allá de seguir un conjunto de reglas. Requiere un profundo entendimiento de los datos y del problema en cuestión, así como creatividad e intuición para idear las características más efectivas.

Por lo tanto, es importante no solo depender de técnicas establecidas, sino también experimentar y explorar diferentes enfoques que puedan proporcionar nuevas ideas sobre los datos. Al hacerlo, puedes descubrir patrones y relaciones ocultas que antes eran desconocidos, lo que finalmente conduce a un modelo más preciso y robusto.

9.2.4 Importancia de las Características

El concepto de "Importancia de las Características" es un aspecto crucial de la ingeniería de características que desempeña un papel vital en el perfeccionamiento de tus modelos predictivos. Como científico de datos, cuando creas numerosas características para mejorar la precisión de tu modelo, no todas contribuirán de manera significativa al rendimiento de tu modelo. Incluso algunas podrían tener un impacto negativo en él.

Por lo tanto, es importante evaluar el valor de cada característica e identificar aquellas que tengan el mayor impacto en el rendimiento del modelo. Al hacerlo, puedes concentrarte en perfeccionar y optimizar las características más importantes para lograr una mejor precisión de predicción y rendimiento del modelo.

Cómo Funciona

En el aprendizaje automático, una de las técnicas más ampliamente utilizadas para comprender la importancia de diferentes características en un modelo es calcular un puntaje de importancia de características. Este puntaje ayuda a cuantificar la contribución de cada característica a las predicciones del modelo. Al analizar el puntaje de importancia de las características, podemos identificar qué características son más significativas en influir en las predicciones realizadas por el modelo.

Hay varios algoritmos que se pueden utilizar para calcular el puntaje de importancia de las características. Por ejemplo, los algoritmos basados en árboles como Bosques Aleatorios y Máquinas de Refuerzo de Gradiente ofrecen importancia de características basada en la cantidad de veces que se utiliza una característica para dividir los datos entre todos los árboles. Otros algoritmos, como Regresión Lineal y Regresión Logística, utilizan métodos estadísticos para calcular el puntaje de importancia de las características.

Al calcular el puntaje de importancia de las características, no solo podemos identificar las características más importantes en un modelo, sino también obtener información sobre cómo funciona el modelo y realizar mejoras en él. Por ejemplo, podemos eliminar características menos importantes del modelo para simplificarlo y reducir el riesgo de sobreajuste. Alternativamente, podemos centrarnos en mejorar el rendimiento de las características más importantes para mejorar la capacidad predictiva del modelo.

Métricas de Importancia

Las métricas utilizadas para determinar la importancia de las características pueden variar según el algoritmo. En el caso de los métodos basados en árboles, típicamente se evalúa utilizando métricas como "Importancia de Gini" o "Disminución Media de Impureza". Estas métricas proporcionan información sobre la influencia de cada característica en el proceso de toma de decisiones del modelo.

Sin embargo, otros algoritmos pueden utilizar métricas diferentes, como "Magnitud del Coeficiente" o "Eliminación de Características Recursivas", para evaluar la importancia de las características. Es importante considerar el algoritmo específico y las métricas correspondientes utilizadas para determinar la importancia de cada característica en el modelo.

Además, comprender la relación entre las métricas elegidas y el proceso de toma de decisiones específico del modelo puede proporcionar más información sobre el rendimiento general del algoritmo.

Ejemplo de Código

Así es como podrías usar Bosques Aleatorios de scikit-learn para encontrar la importancia de las características:

from sklearn.ensemble import RandomForestClassifier
import pandas as pd

# Create a random forest classifier
clf = RandomForestClassifier()

# Assuming X_train contains your training features and y_train contains your labels
clf.fit(X_train, y_train)

# Get feature importances
feature_importances = clf.feature_importances_

# Create a DataFrame to hold features and their importance
importance_df = pd.DataFrame({
    'Feature': X_train.columns,
    'Importance': feature_importances
})

# Sort DataFrame by the importances
importance_sorted = importance_df.sort_values(by='Importance', ascending=False)

print(importance_sorted)

Interpretación

Después de generar el DataFrame de salida, podrás obtener un ranking completo de diversas características basado en su importancia. Si bien es cierto que algunas características pueden tener un nivel bajo de importancia, es importante tener en cuenta que aún pueden contribuir a la precisión general del modelo predictivo.

Sin embargo, en ciertos casos, eliminar características con una baja importancia puede ser una opción viable para mejorar el rendimiento general del modelo. Al eliminar características irrelevantes, puedes simplificar la estructura del modelo, lo que también puede llevar a tiempos de computación más rápidos.

Es importante tener en cuenta que la decisión de eliminar características debe basarse en los requisitos específicos de tu proyecto y la naturaleza de los datos disponibles. Por lo tanto, la consideración cuidadosa y la evaluación del impacto de cada característica en la precisión y eficiencia del modelo son cruciales antes de llegar a una decisión final.

Advertencias

La importancia de las características es un aspecto crucial del aprendizaje automático, pero es importante reconocer que no es el único factor a considerar. Es posible que ciertos algoritmos muestren sesgo hacia ciertos tipos de características.

Por ejemplo, los algoritmos basados en árboles tienden a dar mayor importancia a las características con más niveles. Como tal, la importancia de las características debe verse como solo una pieza del rompecabezas en un proceso de aprendizaje automático más amplio. El conocimiento del dominio, la visualización de datos y varias otras técnicas de análisis de datos también son importantes para garantizar modelos precisos y robustos.

Al comprender qué características son más importantes, es posible obtener información sobre cómo se puede realizar una ingeniería de características adicional. Además, esta información puede ayudar a aumentar la interpretabilidad del modelo y permitir una recopilación de datos más enfocada en el futuro, lo que lleva a modelos de aprendizaje automático aún más precisos y efectivos.