6.3 Proyecto 3: Segmentación de Clientes Usando K-Means Clustering

En este proyecto, nos adentraremos en el aprendizaje no supervisado para segmentar a los clientes según su comportamiento de compra. La segmentación de clientes es una técnica crucial en marketing y estrategia empresarial, que permite a las empresas adaptar sus enfoques de manera eficaz a diferentes grupos de clientes.

¿Por qué es importante la segmentación de clientes?

Marketing Personalizado: Adaptar estrategias de marketing a grupos específicos de clientes.
Desarrollo de Productos: Identificar las necesidades de diferentes segmentos de clientes.
Retención de Clientes: Focalizar los esfuerzos en segmentos de clientes de alto valor.
Asignación de Recursos: Optimizar la distribución de recursos entre los grupos de clientes.

En este proyecto, realizaremos lo siguiente:

Cargar y explorar un conjunto de datos de clientes.
Preprocesar y preparar los datos para la segmentación.
Aplicar K-Means clustering para segmentar a los clientes.
Visualizar e interpretar los clusters resultantes.
Evaluar el rendimiento de la segmentación.
Discutir mejoras potenciales y trabajo futuro.

6.3.1 Cargar y Explorar el Conjunto de Datos

Comenzaremos nuestro análisis importando el conjunto de datos de clientes en nuestro entorno de trabajo. Este paso inicial es crucial ya que sienta las bases para todo el proyecto. Una vez cargados los datos, realizaremos una exploración exhaustiva para obtener información sobre su estructura, características y características generales.

Esta fase exploratoria es esencial para comprender la naturaleza de nuestros datos, identificar posibles patrones o anomalías, e informar nuestras decisiones analíticas posteriores. Al examinar a fondo la composición del conjunto de datos, estaremos mejor preparados para elegir las técnicas de preprocesamiento y los métodos analíticos adecuados en las etapas posteriores del proyecto.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Load the customer dataset
url = 'https://example.com/customer_data.csv'  # Replace with actual URL or file path
customer_df = pd.read_csv(url)

# Display the first few rows of the dataset
print(customer_df.head())

# Display basic information about the dataset
print(customer_df.info())

# Summary statistics
print(customer_df.describe())

# Check for missing values
print(customer_df.isnull().sum())

# Visualize the distribution of annual income and spending score
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(customer_df['Annual Income (k$)'], kde=True)
plt.title('Distribution of Annual Income')
plt.subplot(1, 2, 2)
sns.histplot(customer_df['Spending Score (1-100)'], kde=True)
plt.title('Distribution of Spending Score')
plt.tight_layout()
plt.show()

# Scatter plot of Annual Income vs Spending Score
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Annual Income (k$)', y='Spending Score (1-100)', data=customer_df)
plt.title('Customer Distribution: Annual Income vs Spending Score')
plt.show()

Este es el desglose de sus principales componentes:

Importación de bibliotecas: El script importa las bibliotecas necesarias de Python para la manipulación de datos (pandas), visualización (matplotlib, seaborn) y machine learning (sklearn).
Carga de datos: Carga un conjunto de datos de clientes desde un archivo CSV utilizando pandas.
Exploración de datos: El código muestra las primeras filas del conjunto de datos, información básica sobre el dataset, estadísticas descriptivas y verifica si hay valores faltantes.
Visualización de datos: Crea dos tipos de visualizaciones:
- Histogramas: Muestran la distribución del ingreso anual y la puntuación de gasto.
- Gráfico de dispersión: Muestra la relación entre el ingreso anual y la puntuación de gasto.

Este código es parte de la fase inicial de exploración de datos en un proyecto de segmentación de clientes utilizando K-Means clustering. Ayuda a comprender la estructura y características del conjunto de datos antes de proceder con análisis y clustering adicionales.

El fragmento de código carga el conjunto de datos, muestra información básica, verifica la existencia de valores faltantes y crea visualizaciones que nos ayudan a entender la distribución de nuestras características clave.

6.3.2 Preprocesamiento de Datos

Antes de aplicar el algoritmo de K-Means, es crucial preparar adecuadamente nuestro conjunto de datos. Esta fase preparatoria, conocida como preprocesamiento de datos, implica varios pasos importantes para garantizar que los datos estén en el formato óptimo para el análisis. Primero, necesitamos abordar cualquier valor faltante en el conjunto de datos, ya que estos pueden afectar significativamente los resultados.

Esto puede implicar eliminar filas con datos faltantes o utilizar diversas técnicas de imputación para rellenar los vacíos. A continuación, seleccionaremos cuidadosamente las características más relevantes para nuestro análisis de clustering, enfocándonos en aquellas que son más propensas a revelar patrones significativos en el comportamiento de los clientes.

Finalmente, escalaremos nuestros datos para asegurar que todas las características estén en una escala comparable, lo cual es particularmente importante para algoritmos basados en distancias como K-Means. Este proceso de escalado ayuda a evitar que las características con magnitudes más grandes dominen los resultados del clustering, lo que permite un análisis más equilibrado y preciso de nuestros segmentos de clientes.

# Select relevant features for clustering
features = ['Annual Income (k$)', 'Spending Score (1-100)']

# Check for missing values in selected features
print(customer_df[features].isnull().sum())

# If there are missing values, we can either drop them or impute them
# For this example, we'll drop any rows with missing values
customer_df_clean = customer_df.dropna(subset=features)

# Scale the features
scaler = StandardScaler()
customer_df_scaled = scaler.fit_transform(customer_df_clean[features])

# Convert scaled features back to a DataFrame for easier handling
customer_df_scaled = pd.DataFrame(customer_df_scaled, columns=features)

print("Scaled data:")
print(customer_df_scaled.head())

# Visualize the scaled data
plt.figure(figsize=(10, 6))
sns.scatterplot(x=features[0], y=features[1], data=customer_df_scaled)
plt.title('Scaled Customer Distribution: Annual Income vs Spending Score')
plt.show()

Este es el desglose de lo que hace el código:

Selección de características: Selecciona dos características relevantes para el clustering: "Ingreso anual (k$)" y "Puntuación de gasto (1-100)".
Manejo de valores faltantes: Verifica si hay valores faltantes en las características seleccionadas y elimina cualquier fila con datos faltantes.
Escalado de datos: Utiliza StandardScaler para escalar las características, lo cual es crucial para el clustering K-Means, ya que asegura que todas las características contribuyan de manera equitativa a los cálculos de distancia.
Conversión de datos: Los datos escalados se convierten de nuevo a un DataFrame para un manejo más fácil.
Visualización: Crea un gráfico de dispersión de los datos escalados para visualizar la distribución de los clientes en función de su ingreso anual y su puntuación de gasto.

Este paso de preprocesamiento es esencial, ya que prepara los datos para el algoritmo de K-Means, asegurando que el análisis sea equilibrado y preciso.

En este paso, hemos seleccionado las características relevantes, manejado cualquier valor faltante y escalado nuestros datos utilizando StandardScaler. El escalado es crucial para el clustering K-Means, ya que garantiza que todas las características contribuyan equitativamente a los cálculos de distancia.

6.3.3 Aplicar K-Means Clustering

Con los datos ya preprocesados adecuadamente, estamos listos para aplicar el algoritmo de clustering K-Means a nuestro conjunto de datos de clientes. Esta poderosa técnica de aprendizaje no supervisado nos ayudará a identificar grupos distintos dentro de nuestra base de clientes. Para asegurarnos de utilizar el número óptimo de clusters para nuestro análisis, emplearemos el método del codo.

Este enfoque implica ejecutar el algoritmo K-Means con diferentes números de clusters y graficar la inercia resultante (suma de cuadrados dentro de los clusters) frente al número de clusters. El "codo" en esta gráfica, donde la tasa de disminución de la inercia comienza a estabilizarse, indicará el número ideal de clusters para nuestro conjunto de datos.

# Elbow Method to find the optimal number of clusters
inertias = []
k_range = range(1, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(customer_df_scaled)
    inertias.append(kmeans.inertia_)

# Plot the elbow curve
plt.figure(figsize=(10, 6))
plt.plot(k_range, inertias, 'bx-')
plt.xlabel('k')
plt.ylabel('Inertia')
plt.title('The Elbow Method showing the optimal k')
plt.show()

# Based on the elbow curve, let's choose the optimal number of clusters
optimal_k = 5  # This should be determined from the elbow curve

# Apply K-Means with the optimal number of clusters
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
customer_df_clean['Cluster'] = kmeans.fit_predict(customer_df_scaled)

# Visualize the clusters
plt.figure(figsize=(12, 8))
scatter = plt.scatter(customer_df_clean['Annual Income (k$)'], 
                      customer_df_clean['Spending Score (1-100)'], 
                      c=customer_df_clean['Cluster'], 
                      cmap='viridis')
plt.colorbar(scatter)
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.title('Customer Segments')
plt.show()

Este es el desglose de sus principales componentes:

Método del Codo: Esta técnica se utiliza para determinar el número óptimo de clusters. Implica:
- Ejecutar K-Means con diferentes números de clusters (1 a 10).
- Calcular la inercia (suma de cuadrados dentro de los clusters) para cada uno.
- Graficar la inercia frente al número de clusters.
- El "codo" en esta gráfica indica el número ideal de clusters.
Aplicación de K-Means: Una vez determinado el número óptimo de clusters (establecido en 5 en este ejemplo), se aplica el algoritmo a los datos de clientes escalados.
Visualización: Los clusters resultantes se visualizan en un gráfico de dispersión, con:
- Ingreso anual en el eje x.
- Puntuación de gasto en el eje y.
- Diferentes colores que representan los distintos clusters.

Este proceso ayuda a identificar grupos distintos de clientes en función de su comportamiento de ingresos y gasto, lo que puede utilizarse para estrategias de marketing dirigidas.

En este paso, hemos utilizado el método del codo para determinar el número óptimo de clusters, aplicado el clustering K-Means con este número óptimo y visualizado los clusters resultantes.

6.3.4 Interpretación de los Clusters

Ahora que hemos aplicado exitosamente el clustering K-Means a nuestro conjunto de datos de clientes, es momento de profundizar en los resultados y extraer información significativa. Examinemos cuidadosamente e interpretemos los clusters que hemos identificado para obtener una comprensión completa de nuestros segmentos de clientes.

Este análisis proporcionará información valiosa sobre los grupos distintos dentro de nuestra base de clientes, lo que nos permitirá adaptar nuestras estrategias y enfoques de manera más efectiva.

# Calculate cluster centroids
centroids = customer_df_clean.groupby('Cluster')[features].mean()
print("Cluster Centroids:")
print(centroids)

# Analyze cluster sizes
cluster_sizes = customer_df_clean['Cluster'].value_counts().sort_index()
print("\nCluster Sizes:")
print(cluster_sizes)

# Visualize cluster characteristics
plt.figure(figsize=(12, 6))
sns.boxplot(x='Cluster', y='Annual Income (k$)', data=customer_df_clean)
plt.title('Annual Income Distribution by Cluster')
plt.show()

plt.figure(figsize=(12, 6))
sns.boxplot(x='Cluster', y='Spending Score (1-100)', data=customer_df_clean)
plt.title('Spending Score Distribution by Cluster')
plt.show()

Este fragmento de código es parte del proyecto de segmentación de clientes utilizando K-Means clustering. Se centra en la interpretación de los clusters que se han creado. Aquí está el desglose de lo que hace el código:

Cálculo de los centroides de los clusters: Calcula los valores medios de las características para cada cluster, dándonos un punto central que representa a cada grupo.
Análisis de tamaños de los clusters: Cuenta cuántos clientes hay en cada cluster, lo que ayuda a comprender la distribución de los clientes entre los segmentos.
Visualización de las características de los clusters: Crea dos diagramas de caja:
- Uno que muestra la distribución del ingreso anual para cada cluster.
- Otro que muestra la distribución de la puntuación de gasto para cada cluster.

Este análisis es crucial para obtener información sobre los grupos distintos dentro de la base de clientes, lo que puede utilizarse para adaptar las estrategias de marketing y mejorar la interacción con los clientes.

Con base en estas visualizaciones y estadísticas, podemos interpretar nuestros clusters:

Cluster 0: Alto ingreso, alta puntuación de gasto - "Clientes Premium"
Cluster 1: Bajo ingreso, alta puntuación de gasto - "Compradores Cuidadosos"
Cluster 2: Ingreso medio, puntuación de gasto media - "Clientes Promedio"
Cluster 3: Alto ingreso, baja puntuación de gasto - "Ahorristas Potenciales"
Cluster 4: Bajo ingreso, baja puntuación de gasto - "Clientes con Presupuesto Ajustado"

6.3.5 Evaluar el Rendimiento del Clustering

Para evaluar la efectividad de nuestro enfoque de clustering, utilizaremos la puntuación de silueta, una métrica poderosa que cuantifica qué tan bien se ajusta cada punto de datos dentro de su cluster asignado. Esta puntuación proporciona información valiosa al medir la similitud de un objeto con su propio cluster en comparación con otros clusters.

Al analizar estas puntuaciones, podemos obtener una comprensión integral de la calidad de nuestro clustering e identificar posibles áreas de mejora.

from sklearn.metrics import silhouette_score, silhouette_samples

# Ensure there are at least 2 clusters
if len(set(customer_df_clean['Cluster'])) > 1:
    # Calculate silhouette score
    silhouette_avg = silhouette_score(customer_df_scaled, customer_df_clean['Cluster'])
    print(f"The average silhouette score is: {silhouette_avg:.4f}")

    # Compute silhouette scores for each sample
    silhouette_values = silhouette_samples(customer_df_scaled, customer_df_clean['Cluster'])

    # Visualize silhouette scores
    plt.figure(figsize=(10, 6))
    plt.hist(silhouette_values, bins=20, alpha=0.7, edgecolor="black")
    plt.axvline(silhouette_avg, color="red", linestyle="--", label=f"Average Silhouette Score: {silhouette_avg:.4f}")
    plt.xlabel("Silhouette Score")
    plt.ylabel("Frequency")
    plt.title("Distribution of Silhouette Scores")
    plt.legend()
    plt.show()
else:
    print("Silhouette score cannot be computed with only one cluster.")

Aquí se detalla lo que hace el código:

Calcular la puntuación de silueta: Esto se realiza utilizando la función silhouette_score, que mide qué tan similar es un objeto a su propio cluster en comparación con otros clusters. Se calcula e imprime la puntuación de silueta promedio para todos los puntos de datos.
Calcular puntuaciones de silueta individuales: Se utiliza la función silhouette_samples para calcular la puntuación de silueta para cada punto de datos.
Visualizar la distribución de puntuaciones de silueta: Se crea un histograma para mostrar la distribución de puntuaciones de silueta en todos los puntos de datos. Esto ayuda a comprender la calidad general del clustering.
Agregar una línea vertical para la puntuación promedio: Se agrega una línea roja punteada al histograma para indicar la puntuación de silueta promedio, facilitando la comparación de puntuaciones individuales con el promedio general.

La puntuación de silueta varía de -1 a 1, donde valores más altos indican un mejor clustering. Una puntuación superior a 0.5 generalmente se considera buena. Esta visualización ayuda a evaluar la calidad del clustering e identificar posibles áreas de mejora.

6.3.6 Posibles Mejoras y Trabajo Futuro

Aunque nuestro modelo actual proporciona información valiosa, existen varias maneras en las que podríamos mejorar su rendimiento:

Ingeniería de Características: Crear nuevas características o transformar las existentes para capturar relaciones más complejas. Por ejemplo, podríamos crear una característica que represente la relación entre la puntuación de gasto y el ingreso anual.
Probar Otros Algoritmos: Experimentar con algoritmos de clustering más avanzados como DBSCAN o Modelos de Mezcla Gaussiana, que pueden manejar clusters de diferentes formas y densidades.
Reducción de Dimensionalidad: Si tenemos más características, podríamos utilizar técnicas como PCA para reducir la dimensionalidad antes del clustering.
Incorporar Más Datos: Si es posible, incluir más atributos de los clientes, como edad, género o historial de compras, para crear segmentos más matizados.
Análisis de Series Temporales: Si tenemos datos a lo largo del tiempo, podríamos analizar cómo los clientes se mueven entre segmentos.

6.3.7 Conclusión

En este proyecto, hemos implementado exitosamente el clustering K-Means para segmentar a los clientes en función de su ingreso anual y su puntuación de gasto. Nuestro recorrido abarcó todo el proceso de ciencia de datos, desde la carga inicial de datos y el preprocesamiento meticuloso hasta la evaluación sofisticada del modelo y la interpretación profunda. Navegamos cada paso con precisión, asegurando la integridad y confiabilidad de nuestro análisis.

Los segmentos de clientes que hemos descubierto a través de este proceso no son meramente agrupaciones estadísticas, sino que brindan valiosos conocimientos sobre nuestra base de clientes. Estos segmentos ofrecen una comprensión matizada de los diferentes comportamientos y preferencias de los clientes, que pueden aprovecharse para mejorar significativamente nuestras estrategias comerciales. Al adaptar nuestras estrategias de marketing a estos grupos distintos, podemos crear campañas más personalizadas y efectivas que resuenen con las características únicas de cada segmento.

Además, estos conocimientos se extienden más allá del marketing, pudiendo influir en el desarrollo de productos, enfoques de servicio al cliente y la toma de decisiones empresariales en general. La capacidad de interactuar con los clientes de manera más dirigida, basándonos en su segmentación, puede llevar a una mayor satisfacción, lealtad y, en última instancia, mejores resultados comerciales. A medida que avanzamos, estos segmentos de clientes servirán como una valiosa base para la toma de decisiones basadas en datos en varios aspectos de nuestras operaciones.