5.3 Entrenando VAEs

Como mencionamos anteriormente en la sección 5.1, el proceso de entrenamiento de un Autoencoder Variacional (VAE), un tipo de modelo generativo, implica varios pasos esenciales y cuidadosamente secuenciados. Estos pasos son la preparación del conjunto de datos, la definición de la arquitectura del modelo, la implementación de la función de pérdida y la optimización del modelo.

En esta sección, planeamos explorar cada uno de estos pasos con mayor profundidad, con el objetivo de proporcionarles una comprensión más completa del proceso de entrenamiento. Primero, veremos cómo preparar el conjunto de datos, asegurándonos de que esté en el formato correcto y dividido en subconjuntos apropiados para el entrenamiento y la validación.

Luego, pasaremos a la tarea de definir la arquitectura del modelo. Este paso consiste en diseñar la estructura de la red neuronal, que incluye decidir el número de capas, los tipos de capas (convolucionales, completamente conectadas, etc.) y las conexiones entre ellas.

Después de esto, nos centraremos en la implementación de la función de pérdida. Este paso implica decidir sobre la función de pérdida adecuada que pueda medir con precisión la discrepancia entre las predicciones del modelo y los datos reales.

Finalmente, profundizaremos en las complejidades de la optimización del modelo. Esto implica ajustar los parámetros del modelo para minimizar la función de pérdida, una tarea que a menudo se logra mediante métodos como el descenso de gradiente estocástico o la optimización Adam.

Al final de esta sección, nuestro objetivo es que no solo comprendan cada paso involucrado en el entrenamiento de un VAE, sino que también tengan el conocimiento y los fragmentos de código necesarios para entrenar efectivamente un VAE en cualquier conjunto de datos adecuado de su elección.

5.3.1 Preparando el Conjunto de Datos

La primera y más crítica fase en el complejo proceso de entrenamiento de un Autoencoder Variacional (VAE), gira en torno a la meticulosa preparación del conjunto de datos. El conjunto de datos, en esencia, forma la columna vertebral del proceso de entrenamiento. Es la materia prima de la que el modelo aprende y desarrolla su capacidad para realizar tareas. Con el propósito de ilustrar este proceso en un contexto práctico, utilizaremos el altamente respetado y ampliamente reconocido conjunto de datos MNIST.

El conjunto de datos MNIST es una biblioteca completa y extensa de dígitos escritos a mano. Con el tiempo, ha ganado un reconocimiento y popularidad sustancial dentro de la comunidad de aprendizaje automático, particularmente por su aplicación en sistemas de entrenamiento orientados al procesamiento de imágenes.

El conjunto de datos MNIST se destaca debido a su fiabilidad, efectividad y la gran cantidad de datos que abarca. Estas cualidades lo convierten en un recurso invaluable no solo en el ámbito del aprendizaje automático, sino también en el campo más amplio del reconocimiento de imágenes, la inteligencia artificial y la visión por computadora.

Pasos detallados:

Comience cargando el conjunto de datos en su entorno. Este es el primer paso que le permitirá interactuar con los datos.
Proceda a normalizar los valores de los píxeles contenidos en el conjunto de datos. Este paso implica convertir los valores de los píxeles para que todos caigan dentro de un rango específico, en este caso, entre 0 y 1. La normalización es un paso crucial ya que ayuda a estandarizar los datos, facilitando su procesamiento por el modelo.
Finalmente, reestructure los datos para asegurarse de que se alineen con los requisitos de entrada del VAE. Este paso implica alterar la estructura del conjunto de datos para garantizar que pueda ser ingerido efectivamente por el VAE durante el proceso de entrenamiento.

Ejemplo: Preparando el Conjunto de Datos MNIST

import numpy as np
import tensorflow as tf

# Load the MNIST dataset
(x_train, _), (x_test, _) = tf.keras.datasets.mnist.load_data()

# Normalize the pixel values to the range [0, 1]
x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.

# Reshape the data to (num_samples, num_features)
x_train = x_train.reshape((x_train.shape[0], np.prod(x_train.shape[1:])))
x_test = x_test.reshape((x_test.shape[0], np.prod(x_test.shape[1:])))

print(f"Training data shape: {x_train.shape}")
print(f"Test data shape: {x_test.shape}")

En este ejemplo:

Primero, se importan las bibliotecas necesarias. Numpy, un paquete fundamental para la computación científica con Python, se importa para operaciones numéricas. También se importa TensorFlow, una potente biblioteca de código abierto para el aprendizaje automático y la computación numérica.

El siguiente paso es cargar el conjunto de datos MNIST. La base de datos MNIST (Modified National Institute of Standards and Technology database) es una gran colección de dígitos escritos a mano que se utiliza ampliamente para el entrenamiento y pruebas en el campo del aprendizaje automático. El conjunto de datos se carga utilizando la función tf.keras.datasets.mnist.load_data(). Esta función devuelve dos tuplas: una para el conjunto de datos de entrenamiento y otra para el conjunto de datos de prueba. Cada tupla contiene un conjunto de imágenes y sus etiquetas correspondientes. Sin embargo, dado que solo nos interesan las imágenes (ya que los VAE son modelos de aprendizaje no supervisado), las etiquetas (denotadas por guiones bajos '_') se ignoran.

Una vez cargado el conjunto de datos MNIST, los valores de los píxeles de las imágenes deben ser normalizados. Los modelos de aprendizaje automático a menudo funcionan mejor con datos normalizados. La normalización es una técnica de escalado donde los valores se desplazan y reescalan para que terminen en un rango entre 0 y 1. Para normalizar los valores de los píxeles al rango [0, 1], el código primero convierte el tipo de dato de los arreglos de imágenes a 'float32'. Esto es necesario ya que las imágenes originales se almacenan como enteros de 8 bits para ahorrar espacio, lo que permite valores de píxel entre 0 y 255. Al convertir el tipo de dato a 'float32', se pueden acomodar valores fraccionarios. Luego, los valores de los píxeles se dividen por 255 (el valor máximo posible para un entero de 8 bits), llevando todos los valores al rango [0, 1].

Los datos luego se remodelan. Las imágenes originales de MNIST son de 28x28 píxeles. Sin embargo, el VAE espera la entrada en forma de un arreglo unidimensional. Por lo tanto, las imágenes bidimensionales deben remodelarse (o "aplanarse") en un arreglo unidimensional. Así, las imágenes de 28x28 se remodelan en arreglos de longitud 784.

Finalmente, las formas de los conjuntos de datos de entrenamiento y prueba se imprimen usando la función print de Python. Este es un paso útil para verificar que los datos se han cargado y preprocesado correctamente. Muestra la cantidad de muestras y la cantidad de características para cada conjunto de datos, lo cual es información importante a tener en cuenta antes de entrenar el modelo.

5.3.2 Definición de la Arquitectura del Modelo VAE

En el siguiente paso, procedemos a definir la estructura del Autoencoder Variacional (VAE), que está compuesto predominantemente por dos partes esenciales: las redes del codificador y el decodificador. Estas dos redes juegan roles cruciales en el funcionamiento del VAE.

La red del codificador toma los datos de entrada y los transforma en un conjunto de parámetros en un espacio latente. Este espacio latente es único en el sentido de que representa los datos no como puntos discretos, sino como una distribución de probabilidad.

Después de esto, la red del decodificador actúa sobre estos parámetros, reconstruyendo los datos de entrada originales a partir de la forma codificada. Todo el proceso permite una representación compacta y eficiente de datos complejos.

Codificador: Comprime los datos de entrada en un espacio latente, produciendo la media y la varianza logarítmica de las variables latentes.

Decodificador: Reconstruye los datos de entrada a partir de las variables latentes, generando muestras de datos que se asemejan a los datos de entrada originales.

Ejemplo: Definición del Codificador y el Decodificador

from tensorflow.keras.layers import Input, Dense, Lambda, Layer
from tensorflow.keras.models import Model
from tensorflow.keras import backend as K

# Sampling layer using the reparameterization trick
class Sampling(Layer):
    def call(self, inputs):
        z_mean, z_log_var = inputs
        batch = tf.shape(z_mean)[0]
        dim = tf.shape(z_mean)[1]
        epsilon = K.random_normal(shape=(batch, dim))
        return z_mean + K.exp(0.5 * z_log_var) * epsilon

# Encoder network
def build_encoder(input_shape, latent_dim):
    inputs = Input(shape=input_shape)
    x = Dense(512, activation='relu')(inputs)
    x = Dense(256, activation='relu')(x)
    z_mean = Dense(latent_dim, name='z_mean')(x)
    z_log_var = Dense(latent_dim, name='z_log_var')(x)
    z = Sampling()([z_mean, z_log_var])
    return Model(inputs, [z_mean, z_log_var, z], name='encoder')

# Decoder network
def build_decoder(latent_dim, output_shape):
    latent_inputs = Input(shape=(latent_dim,))
    x = Dense(256, activation='relu')(latent_inputs)
    x = Dense(512, activation='relu')(x)
    outputs = Dense(output_shape, activation='sigmoid')(x)
    return Model(latent_inputs, outputs, name='decoder')

# Define the input shape and latent dimension
input_shape = (784,)
latent_dim = 2

# Build the encoder and decoder
encoder = build_encoder(input_shape, latent_dim)
decoder = build_decoder(latent_dim, input_shape[0])

# Define the VAE model
inputs = Input(shape=input_shape)
z_mean, z_log_var, z = encoder(inputs)
outputs = decoder(z)
vae = Model(inputs, outputs, name='vae')
vae.summary()

En este ejemplo:

El código comienza importando los módulos necesarios de TensorFlow, Keras y Keras backend.

La siguiente sección del código define una clase personalizada de Keras llamada Sampling. El propósito de esta clase es generar una muestra del espacio latente utilizando el truco de reparametrización, una técnica utilizada para permitir que la retropropagación pase a través del proceso de muestreo aleatorio en los VAEs.

La clase Sampling define un método call, que es un método central en las clases de capas de Keras. Este método toma como entrada la media y la varianza logarítmica del espacio latente (representadas como z_mean y z_log_var), genera un tensor aleatorio epsilon con la misma forma que z_mean usando la función random_normal de Keras, y devuelve una muestra de la distribución del espacio latente utilizando la fórmula del truco de reparametrización: z_mean + exp(0.5 * z_log_var) * epsilon.

Tras la definición de la clase Sampling, el código define dos funciones: build_encoder y build_decoder.

La función build_encoder construye la parte del codificador del VAE. El codificador toma un tensor de entrada de una forma dada y lo mapea a un espacio latente. Consta de dos capas totalmente conectadas (Dense) con activación ReLU, seguidas de dos capas Dense sin activación para generar z_mean y z_log_var. Estas dos salidas se pasan a una capa de Sampling para generar una muestra del espacio latente.

De manera similar, la función build_decoder construye la parte del decodificador del VAE. El decodificador toma una muestra del espacio latente y la mapea de nuevo al espacio de entrada original. Consta de dos capas totalmente conectadas (Dense) con activación ReLU, seguidas de una capa Dense con activación sigmoidea para generar la entrada reconstruida.

Una vez que se definen la clase Sampling y las funciones build_encoder y build_decoder, el código establece la forma de entrada y la dimensión latente, construye el codificador y el decodificador utilizando estos parámetros, y luego los combina para formar el VAE completo.

El modelo VAE toma un tensor de entrada, lo pasa a través del codificador para obtener z_mean, z_log_var y una muestra del espacio latente (representada como z). Esta muestra z se pasa luego a través del decodificador para obtener la entrada reconstruida. Todo el modelo VAE se encapsula como un Modelo de Keras y su estructura se imprime usando el método summary().

5.3.3 Implementación de la Función de Pérdida del VAE

La función de pérdida para los Autoencoders Variacionales (VAEs), es una combinación de dos componentes distintos: la pérdida de reconstrucción y la divergencia de Kullback-Leibler (KL). Cada uno de estos componentes desempeña un papel crucial en el funcionamiento del VAE.

La pérdida de reconstrucción es responsable de medir la capacidad del decodificador para reconstruir los datos de entrada originales a partir de la representación del espacio latente codificado. Esencialmente, cuantifica la calidad de los datos reconstruidos en comparación con la entrada original.

Por otro lado, la divergencia KL sirve como una medida de la diferencia entre la distribución latente aprendida, que se deriva de los datos de entrada, y la distribución previa. La distribución previa es típicamente una distribución normal estándar, que es una elección común debido a su manejabilidad matemática y simetría.

Esta parte de la función de pérdida fomenta que la distribución latente aprendida se asemeje a la distribución previa, lo que ayuda a asegurar un espacio latente bien estructurado y continuo.

Ejemplo: Función de Pérdida del VAE

# Define the VAE loss function
def vae_loss(inputs, outputs, z_mean, z_log_var):
    # Reconstruction loss
    reconstruction_loss = tf.keras.losses.binary_crossentropy(inputs, outputs)
    reconstruction_loss *= input_shape[0]

    # KL divergence
    kl_loss = 1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)
    kl_loss = K.sum(kl_loss, axis=-1)
    kl_loss *= -0.5

    # Combine the reconstruction loss and the KL divergence
    return K.mean(reconstruction_loss + kl_loss)

# Compile the VAE model
vae.compile(optimizer='adam', loss=lambda x, y: vae_loss(x, y, z_mean, z_log_var))

En este ejemplo:

La función de pérdida del VAE definida aquí, vae_loss, consta de dos partes principales: la reconstruction_loss y la kl_loss.

La reconstruction_loss está diseñada para evaluar cuán bien el decodificador del VAE puede recrear los datos de entrada originales. Esta parte de la función de pérdida utiliza la entropía cruzada binaria como métrica para comparar los datos de entrada originales con las salidas producidas por el decodificador. La entropía cruzada binaria es una función de pérdida popular para tareas que implican clasificación binaria, y en este contexto, mide la diferencia entre la entrada original y la reconstrucción. Luego, la pérdida de reconstrucción se escala por el tamaño de la forma de entrada, que está representada por input_shape[0].

Por otro lado, la kl_loss representa la divergencia de Kullback-Leibler, una medida de cómo una distribución de probabilidad se aleja de una segunda distribución de probabilidad esperada. En el contexto de los VAEs, la divergencia KL mide la diferencia entre la distribución latente aprendida y la distribución previa, que típicamente es una distribución normal estándar. La divergencia KL se calcula utilizando la media (z_mean) y el logaritmo de la varianza (z_log_var) de la distribución latente y luego se escala por -0.5.

La pérdida global del VAE se calcula como la suma de la pérdida de reconstrucción y la divergencia KL. Esta función de pérdida combinada asegura que el VAE aprenda a codificar los datos de entrada de manera que el decodificador pueda reconstruir con precisión los datos originales, al mismo tiempo que garantiza que la distribución latente aprendida se asemeje estrechamente a la distribución previa.

Después de definir la función de pérdida, el modelo VAE se compila utilizando el optimizador Adam y la función de pérdida VAE personalizada. El optimizador Adam es una opción popular para entrenar modelos de aprendizaje profundo, conocido por su eficiencia y bajos requisitos de memoria. El uso de una función lambda en el argumento de pérdida permite que el modelo utilice la función de pérdida VAE personalizada que requiere parámetros adicionales más allá de los predeterminados (y_true, y_pred) que Keras típicamente usa para sus funciones de pérdida.

5.3.4 Entrenando el Modelo VAE

Después de haber preparado diligentemente nuestro conjunto de datos, definido nuestro modelo con precisión e implementado meticulosamente nuestra función de pérdida, estamos al borde de entrenar nuestro Autoencoder Variacional (VAE). Este paso significativo en nuestro proceso será realizado con el máximo cuidado.

Nuestros datos de entrenamiento cuidadosamente seleccionados se utilizarán para optimizar los parámetros tanto del codificador como del decodificador. Esta optimización es un paso crucial, ya que influye directamente en el rendimiento de nuestro modelo.

Al minimizar la función de pérdida combinada, que implementamos anteriormente, podemos asegurar la representación más precisa posible de nuestros datos. Este es el objetivo final de nuestro proceso de entrenamiento, y ahora estamos listos para embarcarnos en este viaje.

Ejemplo: Entrenando el VAE

# Train the VAE model
vae.fit(x_train, x_train, epochs=50, batch_size=128, validation_data=(x_test, x_test))

En este ejemplo:

El método 'fit' se utiliza para entrenar el modelo durante un número específico de épocas (iteraciones sobre todo el conjunto de datos), que en este caso son 50. El modelo se entrena utilizando 'x_train' tanto como los datos de entrada como los de salida objetivo, lo cual es típico para autoencoders, que intentan reconstruir sus datos de entrada. El tamaño del lote se establece en 128, lo que significa que los pesos del modelo se actualizarán después de procesar 128 muestras. Los datos de validación, utilizados para evaluar el rendimiento del modelo al final de cada época, son 'x_test'.

5.3.5 Monitoreo del Progreso del Entrenamiento

Mantener un seguimiento cercano del progreso del entrenamiento es un paso esencial en el desarrollo de un modelo de aprendizaje automático. Al monitorearlo, podemos comprender claramente qué tan efectivamente el modelo está aprendiendo de los datos y asimilando los patrones que se supone que debe aprender.

No solo nos brinda información sobre el rendimiento actual del modelo, sino que también nos proporciona la información necesaria para realizar ajustes que podrían ser necesarios para mejorar su proceso de aprendizaje. Entre las herramientas que podemos utilizar para hacer un seguimiento del progreso del entrenamiento se encuentran TensorBoard y otras herramientas de visualización.

Estas herramientas ofrecen una representación visual de las pérdidas de entrenamiento y validación a lo largo del tiempo, proporcionando así una visión más tangible y fácil de entender del progreso de aprendizaje del modelo. Es a través de este proceso cuidadoso de monitoreo y ajuste que podemos asegurarnos de que nuestro modelo alcance el mejor rendimiento posible.

Ejemplo: Uso de TensorBoard para Monitoreo

import tensorflow as tf

# Define TensorBoard callback
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir='./logs')

# Train the VAE model with TensorBoard callback
vae.fit(x_train, x_train, epochs=50, batch_size=128, validation_data=(x_test, x_test), callbacks=[tensorboard_callback])

En este ejemplo:

El script comienza importando TensorFlow, una poderosa biblioteca para computación numérica especialmente adecuada para tareas de aprendizaje automático y aprendizaje profundo.

A continuación, el script define un callback de TensorBoard. TensorBoard es una herramienta proporcionada con TensorFlow que permite a los usuarios visualizar el proceso de entrenamiento de sus modelos. Puede mostrar métricas como pérdida y precisión, así como visualizaciones más complejas como gráficos del modelo o histogramas de pesos y sesgos. El callback se define con un directorio de registro './logs', lo que significa que TensorBoard escribirá métricas y otros datos en este directorio durante el entrenamiento.

La llamada a la función vae.fit es donde ocurre el entrenamiento real del modelo VAE. Los argumentos de esta función especifican los detalles del proceso de entrenamiento:

x_train: Estos son los datos de entrenamiento a partir de los cuales el modelo aprenderá. En un VAE, los mismos datos se utilizan como entradas y objetivos porque el modelo intenta aprender a reconstruir sus datos de entrada.
epochs=50: Esto especifica que el proceso de entrenamiento consistirá en 50 épocas. Una época es un pase completo a través de todo el conjunto de datos de entrenamiento.
batch_size=128: Esto establece el número de ejemplos de entrenamiento utilizados en una iteración de actualización de pesos del modelo. Después de que el modelo haya visto 128 ejemplos, actualizará sus pesos.
validation_data=(x_test, x_test): Estos son los datos en los que se evaluará el modelo después de cada época. Se utilizan para monitorear el rendimiento del modelo en datos en los que no ha sido entrenado.
callbacks=[tensorboard_callback]: Esto añade el callback de TensorBoard al proceso de entrenamiento. Con este callback, TensorBoard registrará métricas y otros datos durante el entrenamiento, que se pueden visualizar en la interfaz de TensorBoard.

La salida de este script será un modelo VAE entrenado que ha sido monitoreado utilizando TensorBoard. Al usar TensorBoard, el usuario puede visualizar cómo cambió la pérdida del modelo (y potencialmente otras métricas) a lo largo del entrenamiento, lo que puede ser útil para entender el proceso de aprendizaje del modelo y diagnosticar posibles problemas.

5.3.6 Generación de Nuevas Muestras

Una vez que el Variational Autoencoder (VAE) ha sido entrenado con éxito, se vuelve posible utilizar el componente decodificador del VAE para generar muestras completamente nuevas. Esto se logra realizando una operación de muestreo desde el espacio latente, que es un componente clave de la estructura del VAE.

Estas muestras, que se obtienen del espacio latente, luego se pasan a través del decodificador. El decodificador actúa sobre estas muestras para producir salidas nuevas y únicas. Este proceso abre así una amplia gama de posibilidades para generar nuevos datos basados en la entrada original.

Ejemplo: Generación de Nuevas Muestras

import matplotlib.pyplot as plt
import numpy as np

# Function to generate new samples from the latent space
def generate_samples(decoder, latent_dim, n_samples=10):
    random_latent_vectors = np.random.normal(size=(n_samples, latent_dim))
    generated_images = decoder.predict(random_latent_vectors)
    generated_images = generated_images.reshape((n_samples, 28, 28))
    return generated_images

# Generate and plot new samples
generated_images = generate_samples(decoder, latent_dim)
plt.figure(figsize=(10, 2))
for i in range(generated_images.shape[0]):
    plt.subplot(1, generated_images.shape[0], i + 1)
    plt.imshow(generated_images[i], cmap='gray')
    plt.axis('off')
plt.show()

En este ejemplo:

La función 'generate_samples' en el código toma tres parámetros: un decodificador, un tamaño de dimensión latente y un número opcional de muestras a generar (que por defecto es 10 si no se especifica). La dimensión latente se refiere al espacio abstracto en el cual el VAE representa los datos de entrada, y es un componente crucial en el funcionamiento de los VAEs.

La función comienza generando un conjunto de vectores latentes aleatorios. Esto se realiza extrayendo de una distribución normal (Gaussiana), utilizando la función 'np.random.normal' de NumPy. El tamaño del arreglo generado se determina según el número de muestras y el tamaño de la dimensión latente.

Estos vectores latentes aleatorios luego se pasan a través del decodificador, el cual ha sido entrenado para transformar puntos en el espacio latente de vuelta en imágenes. Esto se realiza utilizando la función 'predict' del decodificador. La salida del decodificador es un arreglo de valores de píxeles, que representan las imágenes generadas.

Sin embargo, las imágenes generadas necesitan ser remodeladas a un formato 2D para ser mostradas correctamente como imágenes. Esto se logra utilizando la función 'reshape' de NumPy, transformando el arreglo 1D de valores de píxeles en un arreglo 2D con dimensiones 28x28 (el tamaño estándar para las imágenes del conjunto de datos MNIST).

Finalmente, las imágenes generadas se muestran utilizando Matplotlib. Se crea una figura y para cada imagen generada se añade un nuevo subplot a la figura. La imagen se muestra en escala de grises (indicado por el parámetro 'cmap' establecido en 'gray'), y se desactivan los ejes para una visualización más limpia de la imagen.

Este código proporciona un claro ejemplo de cómo los VAEs pueden ser utilizados para generar nuevos datos que se asemejen a los datos en los que fueron entrenados. Demuestra el proceso de muestreo desde el espacio latente y cómo el decodificador transforma estas muestras de vuelta en datos interpretables. Como tal, ofrece una aplicación práctica de los VAEs en el campo del modelado generativo.

Resumen

El entrenamiento de Autoencoders Variacionales (VAEs) implica una serie de pasos, incluyendo la preparación del conjunto de datos, la definición de la arquitectura del modelo, la implementación de la función de pérdida y la optimización del modelo. Siguiendo cuidadosamente estos pasos, puedes entrenar un VAE para aprender representaciones latentes significativas de los datos y generar nuevas muestras.

El proceso incluye equilibrar la pérdida de reconstrucción y la divergencia KL para asegurar que el espacio latente aprendido sea útil y esté alineado con la distribución previa. Monitorear el progreso del entrenamiento y ajustar el modelo según sea necesario ayuda a lograr los mejores resultados posibles.

Con el conocimiento y las habilidades adquiridas en esta sección, estás bien equipado para entrenar VAEs en diversos conjuntos de datos, desbloqueando el potencial del modelado generativo en tus proyectos.