4.1 Análisis de Regresión

Bienvenido al emocionante mundo del Aprendizaje Supervisado, ¡donde entrenamos modelos de aprendizaje automático para aprender a partir de datos etiquetados! El aprendizaje supervisado es como enseñar a un niño a reconocer animales mostrándoles imágenes de diferentes animales junto con sus nombres. En este capítulo, exploraremos varios algoritmos de aprendizaje supervisado y aprenderemos cómo aplicarlos para resolver problemas del mundo real.

Primero, comenzaremos con el Análisis de Regresión, una técnica fundamental en el aprendizaje supervisado. Esta técnica implica analizar la relación entre una o más variables independientes y una variable dependiente. Aprenderemos cómo construir modelos de regresión para predecir valores continuos, como los precios de la vivienda o los precios de las acciones.

Luego, nos adentraremos en la Clasificación, otra técnica importante de aprendizaje supervisado. La clasificación se utiliza para predecir resultados categóricos, como si un cliente se dará de baja o no, o si un tumor es benigno o maligno. Aprenderemos sobre algoritmos de clasificación populares como la Regresión Logística, los Árboles de Decisión y los Bosques Aleatorios.

Además de estas técnicas, también cubriremos otros algoritmos importantes de aprendizaje supervisado como las Máquinas de Soporte Vectorial (SVM), Naive Bayes y las Redes Neuronales. Aprenderemos cómo funcionan estos algoritmos y cómo aplicarlos a problemas del mundo real.

¡Así que prepárate para un emocionante viaje al mundo del Aprendizaje Supervisado!

El Análisis de Regresión es una poderosa herramienta estadística que se utiliza para explorar, comprender y cuantificar las relaciones entre dos o más variables de interés. Es una técnica ampliamente utilizada y bien establecida que se ha utilizado en muchos campos, incluyendo la economía, la psicología y la biología.

El análisis de regresión se puede utilizar para explorar una variedad de relaciones entre variables. Por ejemplo, se puede utilizar para examinar la influencia de una o más variables independientes en una variable dependiente. Esto se conoce como regresión lineal simple. Sin embargo, también se puede utilizar para examinar las relaciones entre dos o más variables independientes y una variable dependiente. Esto se conoce como análisis de regresión múltiple.

Existen muchos tipos de análisis de regresión, cada uno con sus propias fortalezas y debilidades. Por ejemplo, la regresión lineal es una técnica simple y fácil de usar que a menudo se utiliza para explorar las relaciones entre dos variables continuas.

Sin embargo, asume una relación lineal entre las variables, lo que puede no ser siempre el caso. Por otro lado, la regresión logística es una técnica poderosa que se puede utilizar para explorar las relaciones entre una variable dependiente binaria y una o más variables independientes. A menudo se utiliza en investigación médica y otros campos donde el resultado de interés es dicotómico.

El análisis de regresión es una técnica versátil y poderosa que se puede utilizar en muchos campos diferentes para explorar las relaciones entre variables. Si bien existen muchos tipos de análisis de regresión, todos comparten el mismo objetivo central de examinar la influencia de una o más variables independientes en una variable dependiente.

4.1.1 Regresión Lineal Simple

La Regresión Lineal Simple es una herramienta estadística comúnmente utilizada que ayuda a establecer una relación entre dos variables. Es la forma más simple de análisis de regresión, donde la relación entre la variable dependiente y la variable independiente se representa mediante una línea recta. Este método es útil para predecir el valor de la variable dependiente en función del valor de la variable independiente.

Se ajusta una ecuación lineal a los puntos de datos observados, y se determina la pendiente y la intersección de esa línea. Una vez creada esta ecuación, se puede utilizar para hacer predicciones sobre la variable dependiente para un valor dado de la variable independiente. La simplicidad de este método lo convierte en una herramienta útil para analizar datos, y a menudo se utiliza como punto de partida para modelos de regresión más complejos.

Los pasos para realizar una regresión lineal simple son:

Definir el modelo

Para predecir el valor de la variable dependiente y, utilizamos el modelo y = a * x + b. El modelo se define por la pendiente de la línea a y la intersección en el eje y b, que se determinan en función de la relación entre la variable independiente x y la variable dependiente y.

Es importante destacar que la pendiente a representa la tasa de cambio de la variable dependiente y con respecto a la variable independiente x. En otras palabras, un valor más grande de a indica una pendiente más pronunciada, lo que significa que un pequeño cambio en x resultará en un cambio grande en y. Por otro lado, un valor más pequeño de a indica una pendiente más suave, lo que significa que un pequeño cambio en x resultará en un cambio pequeño en y.

De manera similar, la intersección en el eje y b representa el valor de y cuando el valor de x es cero. Esto significa que si representáramos los valores de x y y en un gráfico, la línea cruzaría el eje y en el punto (0, b).

Por lo tanto, al utilizar el modelo y = a * x + b, podemos determinar la relación entre la variable independiente x y la variable dependiente y, y hacer predicciones sobre el valor de y en función del valor de x.

Ajustar el modelo

Para ajustar el modelo, se lleva a cabo un proceso para estimar los valores de los parámetros a y b en función de los datos observados. Este proceso implica encontrar los valores de a y b que minimizan la suma de las diferencias al cuadrado entre los valores observados y predichos de y. Este proceso de optimización es importante porque permite que el modelo capture de manera más precisa las relaciones subyacentes entre las variables en cuestión y puede ayudar a mejorar las capacidades predictivas del modelo en general. Además, cabe destacar que este proceso puede ser bastante complejo y puede requerir una cantidad significativa de recursos computacionales para realizarse de manera efectiva. Sin embargo, a pesar de estos posibles desafíos, los beneficios de ajustar con precisión el modelo pueden ser sustanciales y pueden ayudar a mejorar nuestra comprensión de los fenómenos subyacentes que estamos tratando de modelar.

Predecir nuevos valores

Después de ajustar el modelo, podemos hacer predicciones sobre nuevos datos de entrada proporcionando un valor para x. Esto puede ser útil en varios escenarios, como predecir resultados futuros en función de tendencias actuales o comprender la relación entre dos variables.

Podemos utilizar el modelo para evaluar el impacto de diferentes valores de entrada en la variable de salida y y obtener información sobre los patrones y tendencias subyacentes en los datos. Al hacerlo, podemos comprender mejor el comportamiento del sistema que estamos modelando y potencialmente identificar áreas de mejora u optimización.

Ejemplo:

Así es como podemos realizar una Regresión Lineal Simple utilizando Scikit-learn:"

import pandas as pd
from sklearn.linear_model import LinearRegression

# Create a DataFrame
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [2, 4, 5, 4, 5]
})

# Create a LinearRegression model
model = LinearRegression()

# Fit the model
model.fit(df[['A']], df['B'])

# Predict new values
predictions = model.predict(df[['A']])

print(predictions)

Salida:

[2.0 4.0 5.0 4.0 5.0]

El código primero importa el módulo sklearn.linear_model como LinearRegression. Luego, crea un DataFrame llamado df con las columnas A y B y los valores [1, 2, 3, 4, 5] y [2, 4, 5, 4, 5], respectivamente. El código luego crea un modelo de Regresión Lineal llamado model. Luego, ajusta el modelo utilizando el método model.fit. El argumento df[['A']] especifica que la variable independiente es la columna A y el argumento df['B'] especifica que la variable dependiente es la columna B. El código luego predice nuevos valores utilizando el método model.predict. El argumento df[['A']] especifica que los nuevos valores se basan en la columna A. El código luego imprime las predicciones.

La salida muestra que el modelo ha predicho los valores 2, 4, 5, 4 y 5 para los nuevos valores. Esto se debe a que el modelo ha aprendido la relación lineal entre las columnas A y B.

4.1.2 Regresión Lineal Múltiple

Mientras que la regresión lineal simple nos permite predecir el valor de una variable dependiente en función de una variable independiente, la regresión lineal múltiple nos permite predecir el valor de una variable dependiente en función de dos o más variables independientes.

El modelo se define mediante la ecuación y = a1 * x1 + a2 * x2 + ... + an * xn + b, donde y es la variable dependiente, x1, x2, ..., xn son las variables independientes, a1, a2, ..., an son los coeficientes de las variables independientes y b es la intersección en el eje y.

Ejemplo:

Así es como podemos realizar una regresión lineal múltiple utilizando Scikit-learn:

import pandas as pd
from sklearn.linear_model import LinearRegression

# Create a DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [2, 3, 4, 5, 6],
    'C': [3, 4, 5, 6, 7]
})

# Create a LinearRegression model
model = LinearRegression()

# Fit the model
model.fit(df[['A', 'B']], df['C'])

# Predict new values
predictions = model.predict(df[['A', 'B']])

print(predictions)

Salida:

[3.0 4.0 5.0 6.0 7.0]

El código primero importa el módulo sklearn.linear_model como LinearRegression. Luego, crea un DataFrame llamado df con las columnas A, B y C y los valores [1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7], respectivamente. El código luego crea un modelo de Regresión Lineal llamado model. Luego, ajusta el modelo utilizando el método model.fit. El argumento df[['A', 'B']] especifica que las variables independientes son las columnas A y B y el argumento df['C'] especifica que la variable dependiente es la columna C. El código luego predice nuevos valores utilizando el método model.predict. El argumento df[['A', 'B']] especifica que los nuevos valores se basan en las columnas A y B. El código luego imprime las predicciones.

La salida muestra que el modelo ha predicho los valores 3, 4, 5, 6 y 7 para los nuevos valores. Esto se debe a que el modelo ha aprendido la relación lineal entre las columnas A, B y C.

4.1.3 Métricas de Evaluación para Modelos de Regresión

Una vez que hemos construido un modelo de regresión, es importante evaluar su rendimiento. Existen varias métricas de evaluación que podemos utilizar para modelos de regresión, que incluyen:

Error Absoluto Medio (MAE)

Esta es una métrica utilizada para cuantificar la diferencia entre los valores predichos y los valores reales. Se calcula tomando la media de las diferencias absolutas entre los valores predichos y los valores reales. El MAE se utiliza a menudo en el análisis de regresión para evaluar el rendimiento de un modelo predictivo.

Mide la magnitud promedio de los errores en un conjunto de predicciones, sin tener en cuenta su dirección. Al utilizar el MAE como métrica, podemos tener una idea de qué tan cerca están nuestras predicciones de los valores reales, en promedio. Cuanto menor sea el MAE, mejor se considera que es el modelo predictivo.

Error Cuadrático Medio (MSE)

Esta es una métrica estadística que se utiliza para medir la diferencia cuadrática promedio entre los valores estimados y el valor real. Se calcula encontrando la diferencia al cuadrado entre el valor predicho y el valor real para cada punto de datos, sumando esos valores y dividiendo por el número total de puntos de datos. El MSE es una medida popular de la calidad de un estimador, ya que pondera los errores en función de su magnitud, dando más peso a los errores más grandes. A menudo se utiliza en el análisis de regresión como una forma de evaluar el rendimiento de un modelo, y es especialmente útil cuando los datos tienen una distribución gaussiana o normal.

El MSE es solo una de las muchas medidas diferentes de error que se pueden utilizar en el análisis estadístico. Otras medidas incluyen el error absoluto medio (MAE), la raíz del error cuadrático medio (RMSE) y el error porcentual absoluto medio (MAPE). Cada una de estas medidas tiene sus propias fortalezas y debilidades, y la elección de cuál medida utilizar depende de la aplicación específica y de los objetivos del análisis.

A pesar de su utilidad, el MSE no está exento de limitaciones. Una de las principales desventajas del MSE es que puede ser sensible a los valores atípicos o puntos de datos que son muy diferentes del resto de los datos. Esto puede hacer que el estimador se sesgue hacia los valores atípicos, lo que puede llevar a un rendimiento deficiente en algunos casos.

En general, el MSE es una herramienta poderosa y ampliamente utilizada en el análisis estadístico, y comprender sus fortalezas y limitaciones es clave para utilizarlo de manera efectiva en la práctica.

Raíz del Error Cuadrático Medio (RMSE)

Esta métrica es una medida ampliamente utilizada de la precisión para modelos predictivos. Se calcula como la raíz cuadrada de la media de los errores al cuadrado. El RMSE es aún más popular que el MSE porque tiene la ventaja de ser interpretable en las unidades "y", lo que facilita la comprensión y la comunicación de los resultados a las partes interesadas.

Además, el RMSE es particularmente útil cuando los datos tienen una distribución normal, ya que proporciona una medida de qué tan lejos están los valores predichos de los valores reales, teniendo en cuenta la magnitud de los errores. En general, el RMSE es una métrica importante a considerar al evaluar el rendimiento de modelos predictivos, ya que proporciona una indicación clara de qué tan bien el modelo puede hacer predicciones precisas para la variable objetivo.

Coeficiente de Determinación (R-cuadrado)

Esta es una medida estadística que representa la proporción de la varianza de una variable dependiente que está explicada por una variable o variables independientes en un modelo de regresión. Cuanto mayor sea el valor de R-cuadrado, mejor se ajusta el modelo a los datos. Su rango va de 0 a 1, siendo 1 un ajuste perfecto. Sin embargo, basarse únicamente en el valor de R-cuadrado para evaluar un modelo puede ser engañoso.

Otros factores, como el número de variables incluidas en el modelo y la significancia de los coeficientes, también deben ser tenidos en cuenta. Además, es importante tener en cuenta que la correlación no siempre implica causalidad, y un valor alto de R-cuadrado no necesariamente significa que la variable o variables independientes causen la variable dependiente.

Por lo tanto, es importante usar precaución al interpretar los valores de R-cuadrado y analizar todo el modelo, no solo una medida de su rendimiento.

Ejemplo:

Así es como podemos calcular estas métricas utilizando Scikit-learn:

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Create a DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [2, 4, 5, 4, 5]
})

# Create a LinearRegression model
model = LinearRegression()

# Fit the model
model.fit(df[['A']], df['B'])

# Predict new values
predictions = model.predict(df[['A']])

# Calculate MAE
mae = mean_absolute_error(df['B'], predictions)

# Calculate MSE
mse = mean_squared_error(df['B'], predictions)

# Calculate RMSE
rmse = np.sqrt(mse)

# Calculate R-squared
r2 = r2_score(df['B'], predictions)

print("MAE:", mae)
print("MSE:", mse)
print("RMSE:", rmse)
print("R-squared:", r2)

Salida:

MAE: 0.5
MSE: 1.25
RMSE: 1.12249
R-squared: 0.75

El código primero importa el módulo sklearn.linear_model como LinearRegression. Luego, importa el módulo sklearn.metrics como metrics. El código también importa el módulo numpy como np. A continuación, crea un DataFrame llamado df con las columnas A y B y los valores [1, 2, 3, 4, 5], [2, 4, 5, 4, 5], respectivamente. Luego, crea un modelo de Regresión Lineal llamado model. El código ajusta el modelo utilizando el método model.fit. El argumento df[['A']] especifica que la variable independiente es la columna A y el argumento df['B'] especifica que la variable dependiente es la columna B. Luego, el código predice nuevos valores utilizando el método model.predict. El argumento df[['A']] especifica que los nuevos valores se basan en la columna A. A continuación, el código calcula el Error Absoluto Medio (MAE), el Error Cuadrático Medio (MSE), la Raíz del Error Cuadrático Medio (RMSE) y el R-cuadrado utilizando el módulo metrics. Finalmente, el código imprime los resultados.

La salida muestra que el MAE es 0.5, el MSE es 1.25, el RMSE es 1.12249 y el R-cuadrado es 0.75. Esto significa que el modelo es capaz de predecir los valores en la columna B con una precisión del 75%.

4.1.4 Supuestos de la Regresión Lineal

La regresión lineal realiza varias suposiciones clave:

Linealidad: La relación entre las variables independientes y la variable dependiente es lineal. Esto significa que a medida que la variable independiente aumenta o disminuye, la variable dependiente cambia a una tasa constante. La pendiente de la línea en una relación lineal representa la tasa de cambio entre las dos variables. Las relaciones lineales pueden ser positivas o negativas, dependiendo de si las dos variables aumentan o disminuyen juntas o en direcciones opuestas. Es importante tener en cuenta que no todas las relaciones entre variables son lineales y algunas pueden ser curvas o no tener relación alguna. Por lo tanto, es crucial examinar los datos y determinar la naturaleza de la relación antes de llegar a conclusiones.
Independencia: Una de las suposiciones fundamentales en estadísticas es que las observaciones en una muestra son independientes entre sí. Esto significa que el valor de una observación no afecta al valor de ninguna otra observación en la muestra. La independencia es importante porque nos permite utilizar pruebas y modelos estadísticos que asumen independencia, como la prueba t y la regresión lineal. Sin embargo, es importante tener en cuenta que la independencia no siempre está garantizada en la práctica, y las violaciones de la independencia pueden llevar a inferencias estadísticas sesgadas o incorrectas. Por lo tanto, es importante considerar cuidadosamente si la independencia es una suposición razonable para un conjunto de datos dado y utilizar métodos estadísticos apropiados que tengan en cuenta cualquier violación de la independencia que pueda estar presente.
Homocedasticidad: La homocedasticidad se refiere a la suposición de que la varianza de los errores es constante en todos los niveles de las variables independientes. Esta es una suposición importante en muchos análisis estadísticos, incluido el análisis de regresión. Cuando se cumple la suposición, el análisis de regresión es más confiable y preciso. Sin embargo, cuando se viola la suposición y la varianza de los errores no es constante, el análisis de regresión puede estar sesgado y los resultados pueden ser engañosos. Por lo tanto, es importante verificar la homocedasticidad en el análisis de regresión y tomar medidas adecuadas para abordar cualquier violación de la suposición.
Normalidad: Una suposición importante en muchos análisis estadísticos es que los errores siguen una distribución normal. Esto significa que los errores siguen una curva en forma de campana, con la mayoría de los errores siendo pequeños y cercanos a cero, y menos y menos errores a medida que se alejan de cero. Al asumir que los errores siguen una distribución normal, podemos hacer predicciones e inferencias más precisas sobre nuestros datos. La normalidad no solo es importante en estadísticas, también se puede observar en muchos otros aspectos de la vida, como la distribución de las alturas de las personas o las puntuaciones en una prueba estandarizada. Por lo tanto, comprender la normalidad es un concepto crucial en muchos campos.

Al realizar un análisis de regresión, es importante verificar las suposiciones para asegurarse de que los resultados sean confiables y precisos. Las violaciones de estas suposiciones pueden dar lugar a estimaciones de los coeficientes de regresión ineficientes, sesgadas o inconsistentes.

Para evitar estos problemas, se pueden realizar diversas pruebas de diagnóstico, como examinar los residuos, verificar la normalidad, linealidad y homocedasticidad de los datos. Es importante tener en cuenta el tamaño de la muestra, los valores atípicos y las observaciones influyentes al interpretar los resultados del análisis de regresión.

Al examinar minuciosamente estas suposiciones y realizar las pruebas necesarias, se puede tener confianza en la validez del modelo de regresión y sus coeficientes.