3.3 Manejo de Datos Categóricos

¡Bienvenidos al fascinante mundo de los Datos Categóricos! Los datos categóricos son un tipo de datos que se pueden agrupar en categorías o grupos con la ayuda de nombres o etiquetas. Estas categorías se pueden utilizar para representar una amplia gama de variables, como colores, tipos de animales o incluso las preferencias de los clientes. Por ejemplo, 'rojo', 'azul' y 'verde' son categorías para la variable de color, mientras que 'perro', 'gato' y 'hámster' son categorías para la variable de tipo de animal.

Si bien los datos numéricos suelen estar listos para los modelos de aprendizaje automático tal como están, los datos categóricos requieren un poco más de preparación. Esto se debe a que los modelos de aprendizaje automático suelen trabajar con datos numéricos, y las categorías deben transformarse en valores numéricos que puedan ser interpretados por los modelos. Una forma de hacerlo es a través de la Codificación de Etiquetas (Label Encoding), que asigna un número único a cada categoría. Otra técnica es la Codificación One-Hot (One-Hot Encoding), que crea una nueva columna binaria para cada categoría, indicando si esa categoría está presente para cada punto de datos.

En esta sección, exploraremos en más detalle tanto la Codificación de Etiquetas como la Codificación One-Hot, incluyendo sus ventajas y limitaciones. También discutiremos algunos casos de uso comunes para cada técnica y proporcionaremos ejemplos de cómo implementarlas en Python utilizando bibliotecas populares de aprendizaje automático como scikit-learn y TensorFlow.

3.3.1 Codificación de Etiquetas (Label Encoding)

La Codificación de Etiquetas es una técnica muy popular para manejar variables categóricas. Se puede utilizar para transformar datos categóricos en datos numéricos que pueden ser utilizados por algoritmos de aprendizaje automático. En esta técnica, a cada etiqueta se le asigna un número único basado en el orden alfabético.

Esto significa que las variables con un significado similar se les asignan números adyacentes, lo que puede ayudar al algoritmo a identificar patrones. Sin embargo, es importante tener en cuenta que la Codificación de Etiquetas puede introducir sesgo en algunos casos.

Por ejemplo, si la variable categórica tiene un orden natural, como "bajo", "medio" y "alto", asignar números en función del orden alfabético puede no ser apropiado. En tales casos, otras técnicas de codificación como la Codificación One-Hot pueden ser más adecuadas.

Ejemplo:

Así es como podemos realizar la Codificación de Etiquetas utilizando Scikit-learn:

from sklearn.preprocessing import LabelEncoder

# Create a list of categories
categories = ['red', 'blue', 'green', 'red', 'green', 'blue', 'blue', 'green']

# Create a LabelEncoder
encoder = LabelEncoder()

# Perform Label Encoding
encoded_categories = encoder.fit_transform(categories)

print(encoded_categories)

Salida:

[0 1 2 0 2 1 1 2]

El código primero importa el módulo sklearn.preprocessing como encoder. Luego, el código crea una lista de categorías llamada categories con los valores ['red', 'blue', 'green', 'red', 'green', 'blue', 'blue', 'green']. El código luego crea un objeto LabelEncoder. A continuación, el código realiza la codificación de etiquetas utilizando el método encoder.fit_transform y asigna los resultados a la lista encoded_categories. Finalmente, el código imprime la lista.

La salida muestra que las categorías se han codificado en números enteros. Los valores enteros se asignan en un orden arbitrario.

3.3.2 Codificación One-Hot (One-Hot Encoding)

La Codificación One-Hot es una técnica popular para manejar variables categóricas en el aprendizaje automático. Esta técnica nos permite transformar variables categóricas en valores numéricos que pueden ser utilizados en cálculos matemáticos.

En la Codificación One-Hot, cada categoría para cada característica se convierte en una nueva característica, a la cual se le asigna un valor binario de 1 o 0. Esta nueva característica representa la presencia o ausencia de la categoría original. Al crear una nueva característica para cada categoría, podemos asegurarnos de que el modelo no asigne ninguna ordinalidad o jerarquía a las categorías.

Por ejemplo, consideremos una variable categórica como "color" con tres categorías: rojo, azul y verde. Usando la Codificación One-Hot, podemos crear tres nuevas características: "color_rojo", "color_azul" y "color_verde". Cada una de estas características tendrá un valor binario de 1 si la muestra original era roja, azul o verde, respectivamente.

Además, la Codificación One-Hot nos permite manejar variables categóricas con cualquier número de categorías, incluyendo aquellas con un gran número de categorías. Sin embargo, es importante tener en cuenta que la Codificación One-Hot puede aumentar la dimensionalidad del espacio de características, lo que puede hacer que el modelo sea más complejo y difícil de interpretar.

La Codificación One-Hot es una técnica poderosa para manejar variables categóricas y se utiliza ampliamente en aplicaciones de aprendizaje automático. Al convertir variables categóricas en valores numéricos, podemos asegurarnos de que el modelo las pueda procesar de manera efectiva y realizar predicciones precisas.

Ejemplo:

Así es como podemos realizar la Codificación One-Hot utilizando Scikit-learn:

from sklearn.preprocessing import OneHotEncoder

# Create a list of categories
categories = [['red'], ['blue'], ['green'], ['red'], ['green'], ['blue'], ['blue'], ['green']]

# Create a OneHotEncoder
encoder = OneHotEncoder(sparse=False)

# Perform One-Hot Encoding
onehot_encoded_categories = encoder.fit_transform(categories)

print(onehot_encoded_categories)

Salida:

[[0 1 0]
 [1 0 0]
 [0 0 1]
 [0 1 0]
 [0 0 1]
 [1 0 0]
 [1 0 0]
 [0 0 1]]

El código primero importa el módulo sklearn.preprocessing como encoder. Luego, el código crea una lista de categorías llamada categories con los valores [['red'], ['blue'], ['green'], ['red'], ['green'], ['blue'], ['blue'], ['green']]. El código luego crea un objeto OneHotEncoder con el argumento sparse=False. A continuación, el código realiza la codificación one-hot utilizando el método encoder.fit_transform y asigna los resultados a la matriz NumPy onehot_encoded_categories. Finalmente, el código imprime la matriz.

La salida muestra que las categorías se han codificado en una matriz binaria. Cada fila representa una categoría y cada columna representa un valor posible para la categoría. Los valores en la matriz son 1 si la categoría tiene el valor correspondiente y 0 en caso contrario.

3.3.3 Codificación Ordinal (Ordinal Encoding)

La Codificación Ordinal es un tipo de codificación para variables categóricas que pueden ordenarse de manera significativa. Esta técnica transforma la variable categórica en una variable entera, que se puede utilizar en muchos algoritmos de aprendizaje automático.

Existen varias formas de asignar números a las categorías en función de su orden. Un método común es asignar enteros consecutivos, comenzando desde 1, a las categorías en el orden en que aparecen. Otro método es asignar números en función de la frecuencia de las categorías, siendo la categoría más frecuente la que recibe el número más bajo, y así sucesivamente.

La Codificación Ordinal puede ser útil cuando hay un orden natural en las categorías, como en el caso del nivel educativo o los grupos de ingresos. Sin embargo, es importante tener en cuenta que esta codificación asume que la distancia entre las categorías es igual, lo que puede no ser siempre el caso. En tales situaciones, otras técnicas de codificación como la Codificación One-Hot pueden ser más apropiadas.

Ejemplo:

Así es como podemos realizar la Codificación Ordinal utilizando Scikit-learn:

from sklearn.preprocessing import OrdinalEncoder

# Create a list of categories
categories = [['cold'], ['warm'], ['hot'], ['cold'], ['hot'], ['warm'], ['warm'], ['hot']]

# Create an OrdinalEncoder
encoder = OrdinalEncoder(categories=[['cold', 'warm', 'hot']])

# Perform Ordinal Encoding
ordinal_encoded_categories = encoder.fit_transform(categories)

print(ordinal_encoded_categories)

Salida:

[[0]
 [1]
 [2]
 [0]
 [2]
 [1]
 [1]
 [2]]

El código primero importa el módulo sklearn.preprocessing como encoder. El código luego crea una lista de categorías llamada categories con los valores [['cold'], ['warm'], ['hot'], ['cold'], ['hot'], ['warm'], ['warm'], ['hot']]. El código luego crea un objeto OrdinalEncoder con el argumento categories establecido en [['cold', 'warm', 'hot']]. A continuación, el código realiza la codificación ordinal utilizando el método encoder.fit_transform y asigna los resultados a la matriz NumPy ordinal_encoded_categories. Finalmente, el código imprime la matriz.

La salida muestra que las categorías se han codificado en enteros. Los valores enteros se asignan en el orden en que se especifican en el argumento categories. En este caso, cold se asigna el valor 0, warm se asigna el valor 1, y hot se asigna el valor 2.

3.3.4 Elegir el Método de Codificación Adecuado

Cuando se trabaja con datos categóricos, es esencial seleccionar el método de codificación adecuado para asegurar el rendimiento óptimo de su modelo de aprendizaje automático. La elección del método de codificación dependerá de diversos factores, como el tipo de datos categóricos (nominales u ordinales) y el algoritmo de aprendizaje automático específico que se esté utilizando.

Para datos categóricos nominales, un método común de codificación es la codificación one-hot. Este método crea un vector binario de ceros y unos, donde cada categoría se representa mediante un dígito binario único. Otro método comúnmente utilizado es la codificación por etiquetas (label encoding), que asigna un valor numérico a cada categoría.

Por otro lado, los datos categóricos ordinales requieren un método de codificación específico que tenga en cuenta el orden de las categorías. Un método de codificación popular para datos ordinales es la codificación por etiquetas (label encoding), donde cada categoría se asigna un valor numérico en función de su orden. Otro método de codificación para datos ordinales es la codificación por objetivo (target encoding), donde cada categoría se reemplaza por el valor medio del objetivo (variable dependiente) para esa categoría.

Es importante tener en cuenta que la elección del método de codificación puede afectar significativamente el rendimiento de su modelo de aprendizaje automático. Por lo tanto, es esencial considerar cuidadosamente el tipo de datos categóricos y el algoritmo de aprendizaje automático específico que está utilizando antes de seleccionar un método de codificación.

Datos nominales

Los datos nominales son datos categóricos que no tienen un orden o prioridad y se utilizan con frecuencia en diversos campos como la psicología, la medicina y los negocios. Ejemplos incluyen el color (rojo, azul, verde), el género (masculino, femenino) o la ciudad (Nueva York, Londres, Tokio). La Codificación One-Hot es una técnica comúnmente utilizada para datos nominales, donde cada categoría se convierte en una variable binaria. Otra técnica que se puede utilizar es la codificación dummy, donde cada categoría se asigna un valor de 0 o 1. A pesar de ser simples, los datos nominales pueden proporcionar información significativa cuando se analizan adecuadamente. Por ejemplo, el género puede usarse para estudiar el sesgo de género en el lugar de trabajo, mientras que la ciudad puede usarse para analizar el impacto de la urbanización en el medio ambiente.

Datos ordinales

Los datos ordinales son un tipo de datos categóricos que tienen un orden o jerarquía específica. Esto significa que las categorías se pueden organizar en una secuencia o jerarquía lógica, lo que permite comparaciones significativas entre ellas. Ejemplos de datos ordinales incluyen calificaciones, como baja, media y alta, que a menudo se utilizan en encuestas o evaluaciones. Otro ejemplo es el tamaño, con categorías como pequeño, mediano y grande. El nivel educativo es otro tipo de datos ordinales, con categorías que van desde la escuela secundaria hasta el doctorado.

Cuando se trabaja con datos ordinales, es importante utilizar el método de codificación adecuado para asegurarse de que los datos se representen con precisión. Un método común es la codificación por etiquetas (label encoding), que asigna un valor numérico a cada categoría en función de su posición en el orden. Otro método es la codificación ordinal, que crea una nueva variable con valores numéricos que corresponden a cada categoría. Al utilizar estos métodos, los analistas pueden realizar análisis estadísticos que tengan en cuenta el orden y la jerarquía de las categorías, lo que conduce a resultados más precisos y significativos.

Recuerde, es importante experimentar con diferentes métodos de codificación y elegir el que funcione mejor para su caso de uso específico.