4.3 Métricas de Evaluación para el Aprendizaje Supervisado

Cuando se trabaja con aprendizaje automático, construir modelos es solo una parte del proceso. Después de crear un modelo, es importante evaluar su rendimiento. Una forma de hacerlo es mediante el uso de métricas de evaluación, que varían según el tipo de tarea de aprendizaje automático que se esté realizando.

Por ejemplo, las métricas de evaluación utilizadas para problemas de regresión pueden diferir de las utilizadas para problemas de clasificación. En esta sección, analizaremos más de cerca las métricas de evaluación más comúnmente utilizadas para tareas de aprendizaje supervisado, incluyendo cómo funcionan y cuándo usarlas. A medida que exploremos estas métricas, también discutiremos los beneficios y limitaciones de cada una, para que puedas tomar una decisión informada sobre cuál métrica usar en tu tarea específica de aprendizaje automático.

4.3.1 Métricas de Evaluación para Regresión

Como ya hemos discutido en la sección de análisis de regresión, existen varias métricas clave utilizadas para evaluar el rendimiento de los modelos de regresión:

Error Absoluto Medio (MAE)

Esta es una métrica utilizada para evaluar el rendimiento de un modelo de aprendizaje automático. Calcula la magnitud promedio de los errores en un conjunto de predicciones, sin considerar su dirección. En otras palabras, representa la diferencia promedio entre los valores reales y los valores predichos.

Esta métrica es particularmente útil cuando el conjunto de datos contiene valores atípicos o cuando no importa la dirección de los errores. Sin embargo, no penaliza los errores grandes tanto como otras métricas como el Error Cuadrático Medio. Por lo tanto, es posible que no sea la mejor elección cuando el objetivo es minimizar errores grandes.

En general, el Error Absoluto Medio es una forma simple pero efectiva de evaluar la precisión de un modelo y compararlo con otros modelos.

Error Cuadrático Medio (MSE)

Esta es una medida estadística que calcula la diferencia promedio al cuadrado entre los valores estimados y el valor real. Se utiliza ampliamente como método para evaluar la precisión de un modelo predictivo.

El MSE se calcula tomando el promedio de los errores al cuadrado, que son las diferencias entre los valores predichos y los valores reales. Cuanto mayor sea el valor del MSE, menos preciso será el modelo. Por el contrario, un valor menor de MSE indica un modelo más preciso.

El MSE se utiliza comúnmente en campos como el aprendizaje automático, la estadística y el análisis de datos, donde es necesario evaluar el rendimiento de modelos predictivos.

Raíz del Error Cuadrático Medio (RMSE)

Este es un método ampliamente utilizado para evaluar la precisión de las predicciones de un modelo y se define como la raíz cuadrada del promedio de las diferencias al cuadrado entre los valores predichos y los valores reales. Es una extensión del Error Cuadrático Medio (MSE), que se obtiene simplemente tomando el promedio de las diferencias al cuadrado. El RMSE se prefiere sobre el MSE en muchos casos porque es más fácil de interpretar en las unidades "y".

Por ejemplo, supongamos que tienes un modelo que predice el precio de una casa en función de varias características como el tamaño en pies cuadrados, el número de habitaciones y la ubicación. Puedes usar el RMSE para medir cuán precisamente el modelo predice el precio real de la casa. Un valor de RMSE más bajo indica que el modelo está haciendo predicciones más precisas, mientras que un valor de RMSE más alto indica que el modelo está haciendo predicciones menos precisas.

Es importante tener en cuenta que el RMSE tiene sus limitaciones y no debe utilizarse únicamente para evaluar el rendimiento de un modelo. También se deben considerar otras métricas de ajuste del modelo, como el Error Absoluto Medio (MAE) y el coeficiente de determinación R-cuadrado (R-squared), para realizar un análisis más completo.

R-cuadrado (Coeficiente de Determinación)

Esta es una medida estadística que representa la proporción de la varianza de una variable dependiente que se explica por una variable independiente o variables en un modelo de regresión. Es una métrica importante que se utiliza para evaluar la precisión y validez de un modelo de regresión.

Los valores de R-cuadrado varían de 0 a 1, siendo valores más altos indicativos de que más de la varianza en la variable dependiente puede explicarse por las variables independientes. Sin embargo, es importante tener en cuenta que un valor alto de R-cuadrado no necesariamente significa que el modelo sea adecuado para los datos.

Otros factores, como el número de variables independientes, el tamaño de la muestra y la naturaleza de los datos, también pueden afectar la precisión del modelo. Por lo tanto, es importante utilizar el R-cuadrado junto con otras medidas de ajuste del modelo al evaluar el rendimiento de un modelo de regresión.

Ya hemos visto cómo calcular estas métricas utilizando Scikit-learn en las secciones anteriores.

4.3.2 Evaluation Metrics for Classification Models

Una vez que hemos construido un modelo de clasificación, es importante evaluar su rendimiento. Hay varias métricas de evaluación que podemos utilizar para modelos de clasificación, incluyendo:

Exactitud (Accuracy)

Esta métrica mide la proporción de predicciones correctas con respecto al número total de muestras de entrada. En otras palabras, proporciona información sobre la capacidad del modelo para clasificar correctamente los puntos de datos. Es una métrica de evaluación importante para muchas tareas de aprendizaje automático, incluyendo, pero no limitado a, problemas de clasificación.

La exactitud puede verse afectada por una variedad de factores, como la calidad de los datos de entrenamiento, la complejidad del modelo y la elección de hiperparámetros. Por lo tanto, es importante entender las limitaciones de la exactitud como métrica y considerar otras métricas de evaluación junto con la exactitud.

No obstante, la exactitud sigue siendo una métrica ampliamente utilizada en la comunidad de aprendizaje automático debido a su simplicidad y capacidad de interpretación.

Precisión (Precision)

La precisión es una métrica utilizada en el aprendizaje automático para evaluar la precisión de las predicciones de un modelo. Se calcula tomando la proporción del número total de predicciones positivas correctas con respecto al número total de predicciones positivas.

Un puntaje de precisión más alto indica que el modelo es más preciso en la predicción de casos positivos correctos. La precisión a menudo se utiliza junto con la recuperación (recall), que mide la capacidad del modelo para identificar correctamente todos los casos positivos. Juntas, la precisión y la recuperación pueden proporcionar una imagen más completa del rendimiento de un modelo.

La precisión se utiliza con frecuencia en problemas de clasificación binaria, donde solo hay dos posibles resultados. Sin embargo, también se puede utilizar en problemas de clasificación multiclase, donde hay más de dos posibles resultados. En general, la precisión es una métrica importante a considerar al evaluar el rendimiento de un modelo de aprendizaje automático.

Recuperación (Recall o Sensibilidad)

Esta es una de las métricas más importantes en el aprendizaje automático. Mide la proporción de casos positivos reales que fueron correctamente identificados por el algoritmo. Un puntaje de recuperación más alto significa que el modelo identificó con precisión más de los casos positivos.

Sin embargo, un alto puntaje de recuperación a veces puede conllevar a un puntaje de precisión más bajo, que mide la proporción de casos positivos reales entre todos los casos predichos como positivos. Por lo tanto, es importante equilibrar la recuperación y la precisión al evaluar el rendimiento de un modelo.

Puntuación F1 (F1 Score)

La puntuación F1 es una medida de la precisión de un modelo que tiene en cuenta tanto la precisión como la recuperación. Específicamente, es la media armónica de ambas, lo que proporciona una mejor idea del rendimiento del modelo en casos clasificados incorrectamente que la Métrica de Exactitud.

Al tener en cuenta tanto la precisión como la recuperación, la puntuación F1 proporciona una evaluación más equilibrada de la eficacia del modelo que la Exactitud por sí sola. Esto es importante porque un modelo que sea fuerte en una área pero débil en la otra puede no funcionar bien en general.

Al utilizar la puntuación F1, podemos asegurarnos de que nuestro modelo esté funcionando bien tanto en precisión como en recuperación, lo que lleva a resultados más precisos y confiables.

Área bajo la Curva ROC (Característica de Operación del Receptor):

Esta es una de las métricas de evaluación más ampliamente utilizadas para verificar el rendimiento de cualquier modelo de clasificación, y puede proporcionar una visión valiosa de cuán bien puede distinguir entre clases.

La curva ROC es una representación gráfica del rendimiento de un sistema clasificador binario a medida que se varía su umbral de discriminación, y el AUC se calcula como el área bajo esta curva. Básicamente, el valor AUC representa la probabilidad de que el modelo clasifique una muestra positiva elegida al azar más alta que una muestra negativa elegida al azar.

Un puntaje AUC más alto indica que el modelo es mejor para distinguir entre las dos clases, mientras que un puntaje de 0.5 indica que el modelo no es mejor que una suposición aleatoria. Por lo tanto, el AUC es una métrica útil para evaluar el rendimiento de los modelos de clasificación en una variedad de aplicaciones, como el diagnóstico médico, la calificación crediticia y la filtración de correo no deseado.

Ejemplo:

Así es como podemos calcular estas métricas utilizando Scikit-learn:

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

# True labels
y_true = df['B']

# Predicted labels
y_pred = model.predict(df[['A']])

# Calculate metrics
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)
roc_auc = roc_auc_score(y_true, y_pred)

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1 Score:", f1)
print("ROC AUC Score:", roc_auc)

Salida:

Accuracy: 1.0
Precision: 1.0
Recall: 1.0
F1 Score: 1.0
ROC AUC Score: 1.0

El código primero importa el módulo sklearn.metrics. Luego, define las etiquetas verdaderas como y_true = df['B']. A continuación, define las etiquetas predichas como y_pred = model.predict(df[['A']]). Luego, calcula las siguientes métricas:

accuracy: La precisión del modelo es el porcentaje de predicciones que son correctas.
precision: La precisión del modelo es el porcentaje de positivos predichos que son realmente positivos.
recall: El recall del modelo es el porcentaje de positivos reales que son predichos como positivos.
f1: El puntaje F1 es un promedio ponderado de la precisión y el recall.
roc_auc: El puntaje roc_auc es el área bajo la curva de característica operativa del receptor.

Luego, el código imprime los valores de las métricas.

4.3.3 La Importancia de Comprender las Métricas de Evaluación

Comprender estas métricas de evaluación es crucial para interpretar el rendimiento de tus modelos de aprendizaje automático. Cada métrica proporciona una perspectiva diferente sobre el rendimiento del modelo, y es importante considerar múltiples métricas para obtener una comprensión completa de qué tan bien está funcionando tu modelo.

Por ejemplo, la precisión por sí sola puede ser una métrica engañosa, especialmente para problemas de clasificación desequilibrados donde la mayoría de las instancias pertenecen a una clase. En tales casos, un modelo que simplemente predice la clase mayoritaria para todas las instancias tendrá una alta precisión, pero su capacidad para predecir la clase minoritaria puede ser deficiente. Aquí es donde métricas como la precisión, el recall y el puntaje F1 son útiles, ya que proporcionan más información sobre el rendimiento del modelo en diferentes clases.

Del mismo modo, para problemas de regresión, métricas como MAE, MSE, RMSE y R-cuadrado proporcionan información diferente sobre el rendimiento del modelo. MAE proporciona una medida sencilla e interpretable del tamaño del error, mientras que MSE y RMSE dan más peso a los errores más grandes. R-cuadrado proporciona una indicación de qué tan bien el modelo explica la varianza en la variable dependiente.

Además de comprender estas métricas, también es importante utilizarlas correctamente. Esto incluye saber cómo calcularlas utilizando herramientas como Scikit-learn, así como comprender cuándo utilizar cada métrica en función del problema específico y los datos con los que estás trabajando.