5.2 Arquitectura de los VAEs

Como presentamos en la sección 5.1, los Autoencoders Variacionales (VAEs) poseen una arquitectura brillantemente diseñada para aprender de manera eficiente las representaciones latentes de los datos de entrada, y luego generar nuevas muestras de datos utilizando estas representaciones.

Este diseño les permite realizar tareas como la eliminación de ruido o la detección de anomalías, entre otras. En esta sección, profundizaremos en la arquitectura intrincada de los VAEs, explorando los múltiples componentes que conforman esta estructura y observando cómo interactúan entre sí.

Notablemente, un VAE está compuesto por dos componentes principales: el codificador y el decodificador. El codificador toma los datos de entrada y los comprime en un espacio latente de menor dimensión. El decodificador, por otro lado, toma estas representaciones comprimidas y reconstruye los datos originales a partir de ellas. Entender estos componentes y sus interacciones es crucial para comprender cómo funcionan los VAEs.

Para facilitar una comprensión más integral, también proporcionaremos ejemplos prácticos y códigos para ilustrar estos conceptos. Estos ejemplos te brindarán una experiencia práctica sobre cómo implementar y usar los VAEs, permitiéndote así comprender los conceptos de manera más efectiva. Entonces, emprendamos este viaje de aprendizaje para explorar y comprender la fascinante arquitectura de los Autoencoders Variacionales.

5.2.1 Visión General de la Arquitectura de VAE

Como sabemos, la arquitectura del VAE incluye dos redes neuronales principales conocidas como el codificador y el decodificador. Estas redes funcionan conjuntamente para aprender un mapeo probabilístico desde el espacio de datos al espacio latente y viceversa. Este mapeo permite que un VAE genere nuevas muestras de datos que son similares a los datos originales basándose en representaciones aprendidas.

Codificador:

El papel del codificador en un VAE es mapear los datos de entrada a un espacio latente específico. El resultado de este proceso de mapeo son dos vectores: el vector de media, denotado como $( \mu )$, y el logaritmo del vector de varianza, denotado como $( \log \sigma^2 )$.

Estos dos vectores definen los parámetros de la distribución de la variable latente, que se asume gaussiana en los VAEs estándar. Es importante notar que estos vectores representan las tendencias centrales y la dispersión de la distribución respectivamente, encapsulando así la estructura inherente de los datos de entrada.

Decodificador:

En el otro lado de la arquitectura del VAE, tenemos el decodificador. La función del decodificador es tomar muestras de la distribución latente, que está definida por el codificador, y reconstruir los datos originales a partir de estas muestras.

Este proceso permite que el VAE genere nuevas muestras de datos que son estadísticamente similares a los datos originales. El decodificador actúa esencialmente como un modelo generativo, creando nuevas instancias de datos basadas en las representaciones aprendidas en el espacio latente.

5.2.2 Red del Codificador

La red del codificador, un componente integral del proceso, esencialmente funciona como un sofisticado compresor de datos. Toma los datos de entrada en bruto, que a menudo pueden ser bastante complejos y de alta dimensión, y trabaja para condensarlos en un espacio latente de dimensiones mucho más manejables.

Este espacio latente, aunque de menor dimensión, está diseñado para retener las características y patrones esenciales de los datos originales. La tarea principal del codificador, y su función más importante, es producir los parámetros que definen esta distribución latente.

En la mayoría de los casos, estos parámetros están representados por dos medidas estadísticas clave: la media y el logaritmo de la varianza. Estas dos medidas proporcionan un resumen poderoso de la distribución latente, capturando su tendencia central y el grado de dispersión o variabilidad alrededor de este valor central.

Componentes Clave de la Red del Codificador:

Capa de Entrada: Este es el punto de contacto inicial para los datos originales. Recibe esta información en bruto y comienza el proceso de alimentarla a través de la red.
Capas Densas: Después de la capa de entrada, los datos se pasan a través de una serie de capas completamente conectadas. Estas capas densas juegan un papel crítico en el procesamiento de los datos de entrada, ayudando a destilar la información a una forma más manejable.
Variables Latentes: El paso final en la red del codificador, esta capa produce la media $( \mu )$ y el logaritmo de la varianza $( \log \sigma^2 )$ de la distribución latente. Estos valores representan la forma comprimida de los datos originales de entrada, listos para ser decodificados o utilizados para un procesamiento adicional.

Representación Matemática:
z = \mu + \sigma \cdot \epsilon
donde( \epsilon ) es muestreado de una distribución normal estándar.

Ejemplo: Código de la Red del Codificador

import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, Lambda, Layer
from tensorflow.keras.models import Model
from tensorflow.keras import backend as K

# Sampling layer
class Sampling(Layer):
    def call(self, inputs):
        z_mean, z_log_var = inputs
        batch = tf.shape(z_mean)[0]
        dim = tf.shape(z_mean)[1]
        epsilon = K.random_normal(shape=(batch, dim))
        return z_mean + K.exp(0.5 * z_log_var) * epsilon

# Encoder network
def build_encoder(input_shape, latent_dim):
    inputs = Input(shape=input_shape)
    x = Dense(512, activation='relu')(inputs)
    x = Dense(256, activation='relu')(x)
    z_mean = Dense(latent_dim, name='z_mean')(x)
    z_log_var = Dense(latent_dim, name='z_log_var')(x)
    z = Sampling()([z_mean, z_log_var])
    return Model(inputs, [z_mean, z_log_var, z], name='encoder')

input_shape = (784,)
latent_dim = 2
encoder = build_encoder(input_shape, latent_dim)
encoder.summary()

En este ejemplo:

Las primeras líneas de código importan las bibliotecas necesarias. TensorFlow se utiliza para construir y entrenar la red neuronal, mientras que Keras, una API de alto nivel construida sobre TensorFlow, se usa para definir las capas de la red.

La red del codificador comienza con dos capas completamente conectadas (también conocidas como capas Dense), cada una con 512 y 256 neuronas respectivamente. Estas capas utilizan la función de activación ReLU (Rectified Linear Unit), que introduce no linealidad en el modelo, permitiéndole aprender patrones más complejos.

La red del codificador produce dos vectores: un vector de media (z_mean) y un vector de log varianza (z_log_var). Ambos vectores tienen el mismo tamaño que el espacio latente deseado (latent_dim). El espacio latente es un espacio de menor dimensión donde el VAE codifica las características clave de los datos.

Se define una capa personalizada, Sampling, para muestrear un punto de la distribución normal definida por los vectores de media y varianza. La capa de muestreo genera un tensor normal aleatorio (epsilon) y lo escala por el exponente de la mitad de la log varianza y luego se añade la media. Este procedimiento también se conoce como el "truco de reparametrización", y permite que el modelo retropropague gradientes a través del proceso de muestreo aleatorio.

Finalmente, el modelo del codificador se instancia utilizando la red del codificador definida. El modelo toma los datos originales como entrada y produce la media, la log varianza y un punto muestreado en el espacio latente. Luego se imprime el resumen del modelo, detallando la arquitectura de la red del codificador.

Este modelo del codificador es un componente crucial del VAE, ya que es responsable de aprender una representación compacta y significativa de los datos de entrada en el espacio latente. Esta representación aprendida puede ser utilizada por la parte del decodificador del VAE para reconstruir los datos originales o generar nuevas muestras de datos.

5.2.3 Red del Decodificador

La red del decodificador, dentro del marco del proceso de reconstrucción de datos, opera mediante la utilización de variables latentes, o variables que no se observan directamente sino que se infieren a través de un modelo matemático a partir de otras variables que se observan.

Esta red en particular es fundamentalmente responsable de mapear el espacio latente, un espacio abstracto en el que se representan los puntos de datos, de vuelta al espacio de datos original. La importancia de este paso no puede subestimarse, ya que es a través de este mapeo que la red puede recrear con precisión los datos de entrada.

Además, la capacidad de la red del decodificador para mapear de vuelta al espacio de datos es lo que facilita la generación de nuevas muestras, mejorando así la capacidad de la red para predecir y modelar datos futuros.

Componentes Clave:

Entrada Latente: Este componente recibe las variables latentes que han sido muestreadas. Estas variables latentes son cruciales para el funcionamiento de la red del decodificador, ya que proporcionan los datos necesarios que se reconstruirán en los siguientes pasos.
Capas Densas: Estas capas son series de capas completamente conectadas. Su función principal es transformar las variables latentes en los datos de salida. Este proceso de transformación es crítico para la funcionalidad de la red del decodificador, ya que permite la conversión de las variables latentes en un formato que se puede utilizar en la salida final.
Capa de Salida: La capa de salida es responsable de producir los datos reconstruidos. Típicamente, utiliza una activación sigmoide para los valores de los píxeles para asegurarse de que estén dentro del rango [0, 1]. Esto es crucial ya que asegura que los datos de salida mantengan un formato estándar, haciéndolos adecuados para un análisis o uso posterior.

Ejemplo: Código de la Red del Decodificador

# Decoder network
def build_decoder(latent_dim, output_shape):
    latent_inputs = Input(shape=(latent_dim,))
    x = Dense(256, activation='relu')(latent_inputs)
    x = Dense(512, activation='relu')(x)
    outputs = Dense(output_shape, activation='sigmoid')(x)
    return Model(latent_inputs, outputs, name='decoder')

output_shape = 784
decoder = build_decoder(latent_dim, output_shape)
decoder.summary()

En este ejemplo:

La red del decodificador es responsable de la segunda mitad de la función del VAE: tomar los datos comprimidos en el espacio latente y generar nuevos datos que se asemejen estrechamente a los datos de entrada originales. El decodificador actúa esencialmente como un generador, creando nuevas instancias de datos basadas en las representaciones aprendidas en el espacio latente.

El código de ejemplo comienza definiendo una función build_decoder que toma dos argumentos: latent_dim y output_shape. latent_dim se refiere a las dimensiones del espacio latente, la representación condensada de los datos originales. output_shape, por otro lado, son las dimensiones de los datos de salida, que están destinadas a coincidir con la forma de los datos de entrada originales.

Dentro de la función build_decoder, se define una capa de entrada para aceptar datos con la forma latent_dim. Este es el punto desde el cual el decodificador comienza a extrapolar y generar nuevos datos. Después de la capa de entrada, se crean dos capas Dense. Estas son capas de red neuronal completamente conectadas donde cada nodo de entrada está conectado a cada nodo de salida. La primera capa Dense contiene 256 neuronas y la segunda contiene 512 neuronas, ambas utilizando la función de activación 'relu' (Rectified Linear Unit). La función 'relu' introduce no linealidad en el modelo, permitiéndole aprender patrones más complejos en los datos.

La capa final en la red del decodificador es la capa de salida. Esta capa utiliza la función de activación 'sigmoid' y tiene un tamaño igual a output_shape. La función 'sigmoid' asegura que los valores de salida caigan dentro de un rango entre 0 y 1, lo cual es útil en este contexto ya que el modelo está manejando valores de píxeles normalizados.

La función luego devuelve un Modelo construido a partir de las entradas latentes y las salidas especificadas, nombrándolo 'decoder'. Este modelo devuelto representa toda la red del decodificador.

Después de la definición de la función, se invoca build_decoder con latent_dim y output_shape como argumentos para construir la red del decodificador. La estructura de la red del decodificador creada se imprime usando decoder.summary(). Esto proporciona un resumen de las capas en el modelo, la forma de salida de cada capa y el número de parámetros (pesos y sesgos) que el modelo necesita aprender durante el entrenamiento.

5.2.4 Inferencia Variacional y el Truco de Reparametrización

El Autoencoder Variacional (VAE) emplea la técnica de la inferencia variacional para aprender el espacio latente de manera efectiva, aproximando así la verdadera distribución posterior. Este es un aspecto crucial de su diseño, facilitando la capacidad del modelo para generar nuevos datos que sean similares a los datos de entrada con los que fue entrenado.

Una de las técnicas clave utilizadas en la arquitectura del VAE es conocida como el truco de reparametrización. Este método innovador permite que el VAE retropropague gradientes a través del proceso de muestreo estocástico, que tradicionalmente es desafiante.

Esto es esencial para el entrenamiento del VAE, ya que asegura la actualización efectiva de los parámetros del modelo en respuesta a los datos observados. Como tal, el truco de reparametrización mejora significativamente la capacidad del VAE para aprender representaciones significativas de datos complejos.

Truco de Reparametrización:

Permite que el gradiente fluya a través del proceso de muestreo al expresar la variable latente $z$ como:

z = \mu + \sigma \cdot \epsilon

donde \epsilon \sim \mathcal{N}(0, 1).

Este truco asegura que el paso de muestreo sea diferenciable, lo que permite que la red se entrene utilizando técnicas de optimización basadas en gradientes estándar.

Ejemplo: Código de Reparametrización

La capa Sampling implementada anteriormente es un ejemplo del truco de reparametrización. Aquí hay un breve resumen:

class Sampling(Layer):
    def call(self, inputs):
        z_mean, z_log_var = inputs
        batch = tf.shape(z_mean)[0]
        dim = tf.shape(z_mean)[1]
        epsilon = K.random_normal(shape=(batch, dim))
        return z_mean + K.exp(0.5 * z_log_var) * epsilon

En este ejemplo:

El código define una clase llamada Sampling, que hereda de la clase Layer proporcionada por la biblioteca Keras. Una capa en Keras es un componente fundamental de un modelo de aprendizaje profundo. Es un módulo de procesamiento de datos que toma uno o más tensores como entrada y produce uno o más tensores como salida.

La clase Sampling tiene un método call, que es uno de los métodos principales en las capas de Keras. Aquí es donde reside la lógica de la capa.

En el método call, tenemos z_mean y z_log_var como argumentos de entrada. Estos son la media y la varianza logarítmica del espacio latente que ha producido la parte del codificador del VAE.

El método luego recupera la forma del tensor z_mean para obtener el tamaño del lote y la dimensión del tensor. Esto se hace utilizando la función shape de TensorFlow.

A continuación, se crea un tensor normal aleatorio llamado epsilon utilizando la función random_normal de Keras. Este tensor tiene la misma forma que el tensor z_mean. Esta es una parte clave de la aleatoriedad del VAE, introduciendo aleatoriedad que ayuda al VAE a generar salidas diversas.

Finalmente, el método devuelve una muestra de la distribución del espacio latente. Esto se hace utilizando la fórmula del truco de reparametrización, que es z_mean + exp(0.5 * z_log_var) * epsilon. El truco de reparametrización es un método que permite a los VAEs retropropagar gradientes a través del proceso de muestreo aleatorio, lo cual es esencial para el entrenamiento del VAE.

5.2.5 Función de Pérdida del VAE

La función de pérdida para los Autoencoders Variacionales es una combinación de la pérdida de reconstrucción y la divergencia de Kullback-Leibler (KL). La pérdida de reconstrucción, que es un componente esencial de la función de pérdida, mide la efectividad del decodificador en la reconstrucción de los datos de entrada. Esencialmente, sirve como una métrica de comparación entre los datos originales y los datos regenerados por el decodificador.

Por otro lado, la divergencia KL, otro componente vital de la función de pérdida, mide qué tan cerca está la distribución latente aprendida de la distribución a priori, que generalmente es una distribución normal estándar en muchos casos. Estos dos elementos juntos forman la base para la función de pérdida general en los Autoencoders Variacionales, proporcionando una medida integral del rendimiento del modelo.

Pérdida del VAE:
VAE Loss=Reconstruction Loss+KL Divergence

Pérdida de Reconstrucción:

A menudo medida utilizando el Error Cuadrático Medio (MSE) o la Entropía Cruzada Binaria (BCE).

Divergencia KL:

Mide la diferencia entre la distribución aprendida y la distribución a priori.

Ejemplo: Código de la Función de Pérdida del VAE

# Define the VAE loss
def vae_loss(inputs, outputs, z_mean, z_log_var):
    reconstruction_loss = tf.keras.losses.binary_crossentropy(inputs, outputs)
    reconstruction_loss *= input_shape[0]
    kl_loss = 1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)
    kl_loss = K.sum(kl_loss, axis=-1)
    kl_loss *= -0.5
    return K.mean(reconstruction_loss + kl_loss)

# Compile the VAE model
vae.compile(optimizer='adam', loss=lambda x, y: vae_loss(x, y, z_mean, z_log_var))

En este ejemplo:

La función de pérdida definida en este fragmento de código, vae_loss, consta de dos partes principales: la reconstruction_loss y la kl_loss.

La reconstruction_loss evalúa qué tan bien el decodificador del VAE recrea los datos de entrada originales. Utiliza la entropía cruzada binaria como métrica de comparación entre las entradas originales y las salidas reproducidas por el decodificador. La entropía cruzada binaria es una función de pérdida popular para tareas que involucran clasificación binaria, y en este contexto, mide la diferencia entre la entrada original y la reconstrucción. La pérdida de reconstrucción se escala luego por el tamaño de la forma de entrada.

La kl_loss, por otro lado, es la divergencia de Kullback-Leibler, una medida de cuánto una distribución de probabilidad se desvía de una segunda distribución esperada. En el contexto de los VAE, la divergencia KL mide la diferencia entre la distribución latente aprendida y la distribución a priori, que típicamente es una distribución normal estándar. La divergencia KL se calcula utilizando la media y la varianza logarítmica de la distribución latente y luego se escala por -0.5.

La pérdida total del VAE se calcula luego como la suma de la pérdida de reconstrucción y la divergencia KL. Esta función de pérdida combinada asegura que el VAE aprenda a codificar los datos de entrada de tal manera que el decodificador pueda reconstruir con precisión los datos originales, mientras también garantiza que la distribución latente aprendida coincida estrechamente con la distribución a priori.

Finalmente, el modelo VAE se compila utilizando el optimizador Adam y la función de pérdida VAE personalizada. El optimizador Adam es una opción popular para entrenar modelos de aprendizaje profundo, conocido por su eficiencia y bajos requerimientos de memoria. El uso de una función lambda en el argumento de pérdida permite que el modelo utilice la función de pérdida VAE personalizada que requiere parámetros adicionales más allá de los predeterminados (y_true, y_pred) que Keras generalmente usa para sus funciones de pérdida.