3.3 Entrenamiento de GANs

El proceso de entrenamiento de Redes Generativas Adversariales (GANs), un tipo de modelo de aprendizaje automático, es una tarea compleja e intrincada. Requiere la optimización simultánea de dos redes neuronales distintas: el generador y el discriminador. El objetivo general de este procedimiento es alcanzar un estado donde el generador sea capaz de crear datos tan convincentemente realistas que la red del discriminador no pueda diferenciarlos de datos reales y auténticos.

En la siguiente sección, emprenderemos una exploración del proceso detallado involucrado en el entrenamiento de GANs. Esto incluirá una discusión completa del proceso de entrenamiento paso a paso, una visión general de los desafíos comunes que a menudo se enfrentan en este esfuerzo, y un examen de una serie de técnicas avanzadas. Estas técnicas avanzadas están específicamente diseñadas para mejorar la estabilidad y el rendimiento del entrenamiento de GANs, haciendo el proceso más eficiente y los resultados más efectivos.

3.3.1 El Proceso de Entrenamiento

El proceso de entrenamiento de las Redes Generativas Adversariales (GANs) es un procedimiento complejo pero fascinante. Involucra una alternancia cuidadosamente coordinada entre la actualización de dos componentes clave: el discriminador y el generador.

Para detallar, el proceso se inicia primero actualizando el discriminador, seguido de hacer las actualizaciones necesarias al generador. Este ciclo se repite hasta que se considere completo el entrenamiento. El equilibrio entre estos dos componentes es crucial para el funcionamiento adecuado de las GANs.

Aquí hay un desglose paso a paso del proceso de entrenamiento:

Inicializar las Redes:
- El primer paso implica inicializar las redes del generador y el discriminador. Estas redes son redes neuronales profundas y se inicializan con pesos aleatorios. Este es un procedimiento estándar al entrenar redes neuronales.
Entrenar el Discriminador:
- El siguiente paso es entrenar el discriminador. Primero, se toma una muestra de un lote de datos reales del conjunto de entrenamiento. Estos datos representan el tipo de salida que queremos que produzca nuestro generador.
- Luego, se genera un lote de datos falsos utilizando el generador. En esta etapa, el generador no está entrenado, por lo que la calidad de los datos falsos es baja.
- La pérdida del discriminador se calcula tanto en los datos reales como en los falsos. El objetivo del discriminador es clasificar correctamente los datos como reales o falsos.
- Finalmente, se actualizan los pesos del discriminador de manera que minimicen esta pérdida. La estrategia de optimización puede variar, pero generalmente implica alguna forma de descenso de gradiente.
Entrenar el Generador:
- La siguiente fase es entrenar el generador. Esto comienza tomando una muestra de un lote de vectores de ruido aleatorio. Estos vectores sirven como entrada para el generador.
- Usando estos vectores de ruido, el generador produce un lote de datos falsos.
- Luego se calculan las predicciones del discriminador sobre estos datos falsos. El discriminador ha sido actualizado en el paso anterior, por lo que es ligeramente mejor para distinguir los datos reales de los falsos.
- La pérdida del generador se calcula en función de estas predicciones. A diferencia del discriminador, el objetivo del generador es engañar al discriminador haciéndole creer que los datos falsos son reales.
- Por último, se actualizan los pesos del generador para minimizar esta pérdida. Al igual que con el discriminador, esto generalmente implica alguna forma de descenso de gradiente.
Repetir:
- Los pasos 2 y 3 se repiten durante un número especificado de épocas, o hasta que el generador produzca datos de alta calidad que puedan engañar al discriminador. El número de épocas requeridas puede variar mucho dependiendo de la complejidad de los datos y la arquitectura de las redes.

Ejemplo: Entrenamiento de una GAN Básica

import numpy as np

# Load and preprocess the MNIST dataset
(x_train, _), (_, _) = tf.keras.datasets.mnist.load_data()
x_train = (x_train.astype(np.float32) - 127.5) / 127.5  # Normalize to [-1, 1]
x_train = np.expand_dims(x_train, axis=-1)

# Training parameters
epochs = 10000
batch_size = 64
sample_interval = 1000

# Training the GAN
for epoch in range(epochs):
    # Train the discriminator
    idx = np.random.randint(0, x_train.shape[0], batch_size)
    real_images = x_train[idx]
    noise = np.random.normal(0, 1, (batch_size, latent_dim))
    fake_images = generator.predict(noise)
    d_loss_real = discriminator.train_on_batch(real_images, np.ones((batch_size, 1)))
    d_loss_fake = discriminator.train_on_batch(fake_images, np.zeros((batch_size, 1)))
    d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

    # Train the generator
    noise = np.random.normal(0, 1, (batch_size, latent_dim))
    g_loss = gan.train_on_batch(noise, np.ones((batch_size, 1)))

    # Print progress
    if epoch % sample_interval == 0:
        print(f"{epoch} [D loss: {d_loss[0]}, acc.: {d_loss[1] * 100}%] [G loss: {g_loss}]")

# Generate new samples
noise = np.random.normal(0, 1, (10, latent_dim))
generated_images = generator.predict(noise)

# Plot generated images
fig, axs = plt.subplots(1, 10, figsize=(20, 2))
for i, img in enumerate(generated_images):
    axs[i].imshow(img.squeeze(), cmap='gray')
    axs[i].axis('off')
plt.show()

En este ejemplo simple:

El código comienza importando las bibliotecas necesarias.

A continuación, se carga el conjunto de datos MNIST utilizando la API de Keras. Las imágenes en el conjunto de datos son imágenes en escala de grises de tamaño 28x28. Antes de alimentarlas al modelo, las imágenes se normalizan al rango [-1, 1] restando el valor medio (127.5) y dividiendo por el mismo valor.

Luego, se definen los parámetros de entrenamiento. El parámetro 'epochs' determina el número de veces que se usará todo el conjunto de datos en el proceso de entrenamiento, 'batch_size' es el número de muestras que se propagarán a través de la red a la vez, y 'sample_interval' es la frecuencia con la que se imprimirá el progreso del entrenamiento y se guardarán imágenes de muestra.

La GAN se entrena en un bucle durante el número especificado de épocas. En cada época, primero se entrena el discriminador en un lote de imágenes reales y un lote de imágenes falsas generadas por el generador. Las imágenes reales se etiquetan con unos y las imágenes falsas se etiquetan con ceros. La pérdida del discriminador se calcula en función de su capacidad para clasificar correctamente estas imágenes, y sus pesos se actualizan en consecuencia.

A continuación, se entrena el generador. Genera un lote de imágenes a partir de ruido aleatorio, y estas imágenes se alimentan al discriminador. Sin embargo, esta vez, las etiquetas son todas unos, porque el objetivo del generador es engañar al discriminador haciéndole creer que sus imágenes son reales. La pérdida del generador se calcula en función de lo bien que logró engañar al discriminador, y sus pesos se actualizan en consecuencia.

El progreso del entrenamiento se imprime en intervalos especificados por el parámetro 'sample_interval'. Esto incluye la época actual, la pérdida y precisión del discriminador, y la pérdida del generador.

Después del proceso de entrenamiento, se usa el generador para generar 10 nuevas imágenes a partir de ruido aleatorio. Estas imágenes se trazan utilizando matplotlib y se muestran. El objetivo es observar la calidad de las imágenes que el generador entrenado puede producir.

Otro Ejemplo: Entrenamiento de una GAN en Datos MNIST

Aquí hay un ejemplo completo de entrenamiento de una GAN en el conjunto de datos MNIST, incluyendo los pasos de entrenamiento tanto del generador como del discriminador:

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# Load and preprocess the MNIST dataset
(x_train, _), (_, _) = tf.keras.datasets.mnist.load_data()
x_train = (x_train.astype(np.float32) - 127.5) / 127.5  # Normalize to [-1, 1]
x_train = np.expand_dims(x_train, axis=-1)

# Training parameters
latent_dim = 100
epochs = 10000
batch_size = 64
sample_interval = 1000

# Build the generator and discriminator
generator = build_generator(latent_dim)
discriminator = build_discriminator((28, 28, 1))
discriminator.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Build and compile the GAN
discriminator.trainable = False
gan_input = tf.keras.Input(shape=(latent_dim,))
img = generator(gan_input)
validity = discriminator(img)
gan = tf.keras.Model(gan_input, validity)
gan.compile(optimizer='adam', loss='binary_crossentropy')

# Training the GAN
for epoch in range(epochs):
    # Train the discriminator
    idx = np.random.randint(0, x_train.shape[0], batch_size)
    real_images = x_train[idx]
    noise = np.random.normal(0, 1, (batch_size, latent_dim))
    fake_images = generator.predict(noise)
    d_loss_real = discriminator.train_on_batch(real_images, np.ones((batch_size, 1)))
    d_loss_fake = discriminator.train_on_batch(fake_images, np.zeros((batch_size, 1)))
    d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

    # Train the generator
    noise = np.random.normal(0, 1, (batch_size, latent_dim))
    g_loss = gan.train_on_batch(noise, np.ones((batch_size, 1)))

    # Print progress
    if epoch % sample_interval == 0:
        print(f"{epoch} [D loss: {d_loss[0]}, acc.: {d_loss[1] * 100}%] [G loss: {g_loss}]")

        # Generate and save images
        noise = np.random.normal(0, 1, (10, latent_dim))
        generated_images = generator.predict(noise)
        fig, axs = plt.subplots(1, 10, figsize=(20, 2))
        for i, img in enumerate(generated_images):
            axs[i].imshow(img.squeeze(), cmap='gray')
            axs[i].axis('off')
        plt.show()

En este ejemplo:

Este código de ejemplo demuestra la implementación y el entrenamiento de una Red Generativa Adversarial (GAN) en el conjunto de datos MNIST. El conjunto de datos MNIST es una colección completa de imágenes de dígitos escritos a mano que se utiliza ampliamente en el campo del aprendizaje automático y la visión por computadora para evaluar algoritmos.

El código comienza cargando y preprocesando el conjunto de datos MNIST. Las imágenes se normalizan para tener valores entre -1 y 1, y los datos se reorganizan para ajustarse a la forma de entrada del discriminador.

A continuación, el código define los parámetros de entrenamiento, como la dimensión latente (el tamaño del vector de ruido aleatorio que toma el generador como entrada), el número de épocas de entrenamiento, el tamaño del lote y el intervalo de muestreo.

Luego se construyen el Generador y el Discriminador utilizando las funciones 'build_generator' y 'build_discriminator', respectivamente. Estas funciones no se muestran en el texto seleccionado, pero se supone que crean modelos adecuados para el Generador y el Discriminador.

Una vez que el Generador y el Discriminador están compilados y listos, comienza el entrenamiento real de la GAN. El proceso de entrenamiento implica ejecutar un bucle durante el número definido de épocas. En cada época, primero se entrena el Discriminador. Se selecciona un lote de imágenes reales y un lote de imágenes falsas, y se entrena al Discriminador para clasificarlas correctamente como reales o falsas.

A continuación, se entrena el Generador. El objetivo del Generador es generar imágenes que el Discriminador clasificará como reales. Por lo tanto, los pesos del Generador se actualizan en función de lo bien que logra engañar al Discriminador.

Después de un cierto número de épocas (definido por el parámetro 'sample_interval'), el código imprime el progreso actual, genera un lote de imágenes utilizando el estado actual del Generador y las muestra. El objetivo es observar cómo mejoran las imágenes generadas a medida que avanza el entrenamiento.

El entrenamiento continúa hasta que se completan todas las épocas. Al final del entrenamiento, se espera que el Generador produzca imágenes que se asemejen estrechamente a los dígitos escritos a mano reales del MNIST, y el Discriminador debería tener dificultades para distinguir entre imágenes reales y falsas.

El ejemplo proporciona un marco básico para entender e implementar GANs. Sin embargo, entrenar GANs puede ser un desafío debido a problemas como el colapso de modo, gradientes que desaparecen y la dificultad de lograr un equilibrio entre el Generador y el Discriminador. Se han propuesto varias técnicas avanzadas y modificaciones para abordar estos desafíos y mejorar el rendimiento de las GANs.

3.3.2 Desafíos Comunes en el Entrenamiento de GANs

El proceso de entrenamiento de Redes Generativas Adversariales (GANs) a menudo presenta una serie de desafíos que pueden potencialmente obstaculizar el rendimiento y la estabilidad general del modelo. Estos desafíos a veces pueden ser bastante complejos, presentando obstáculos significativos para lograr los resultados deseados. Algunos de los desafíos más prevalentes y comúnmente encontrados en este campo son los siguientes:

Colapso de Modo:
En ciertas situaciones, el generador tiende a limitar la variedad de muestras que produce. Esto resulta en la incapacidad del generador para capturar con precisión la diversidad completa de la distribución de datos. Es un problema significativo ya que dificulta la capacidad del generador para proporcionar una amplia gama de posibles soluciones.
Solución: Para superar esta limitación y fomentar la diversidad en las muestras generadas, se pueden emplear varias técnicas. Una de estas técnicas es la discriminación en mini-batch. Este método permite que el modelo cree un conjunto más diverso de muestras al hacer que la salida del generador dependa no solo del vector de ruido de entrada, sino también de un lote de vectores de ruido. Otra técnica es el uso de Redes Generativas Adversariales desenrolladas (Unrolled GANs). Las Unrolled GANs proporcionan un mecanismo para optimizar los parámetros del generador considerando las actualizaciones futuras del discriminador, permitiendo así una mayor diversidad de muestras generadas.
Inestabilidad del Entrenamiento:
Uno de los aspectos más desafiantes del entrenamiento de Redes Generativas Adversariales (GANs) es lidiar con la inestabilidad. Esta inestabilidad se debe a la naturaleza adversarial de las GANs, en la que el generador y el discriminador están en constante competencia. Este aspecto competitivo puede llevar frecuentemente a oscilaciones o incluso divergencia durante el proceso de entrenamiento, lo que puede complicar significativamente la tarea de alcanzar un equilibrio estable.
Solución: Para mitigar este problema de inestabilidad del entrenamiento, se han desarrollado y aplicado con éxito varias técnicas. Entre estas, las GAN de Wasserstein (WGAN) y la normalización espectral se destacan como particularmente efectivas. Ambas técnicas han demostrado estabilizar significativamente el proceso de entrenamiento, haciendo que sea más fácil alcanzar el equilibrio deseado.
Gradientes Desvanecientes:
En el proceso de entrenamiento de GANs, un problema común que surge es el fenómeno de los gradientes que desaparecen. Esto ocurre típicamente cuando el discriminador se vuelve demasiado bueno en distinguir entre muestras reales y falsas. Como resultado, los gradientes que recibe el generador durante la retropropagación se vuelven extremadamente pequeños, casi desapareciendo. Esto dificulta la capacidad del generador para aprender y mejorar, obstaculizando así su entrenamiento.
Solución: Para contrarrestar este problema, se pueden emplear varias técnicas. Un método es el uso de penalizaciones de gradiente. Esto implica agregar un término de penalización a la función de pérdida del discriminador, lo que ayuda a prevenir que los gradientes se reduzcan. Otro método es el suavizado de etiquetas, una técnica en la que se suavizan las etiquetas objetivo, reduciendo así la confianza del discriminador en sus decisiones. Ambos métodos sirven para equilibrar la dinámica del entrenamiento entre el generador y el discriminador, asegurando que uno no supere al otro.
Hiperparámetros Sensibles:
Uno de los desafíos principales al entrenar Redes Generativas Adversariales (GANs) es que son altamente sensibles a la configuración de hiperparámetros. Estos hiperparámetros, que incluyen aspectos como las tasas de aprendizaje, tamaños de lotes e inicializaciones de pesos, juegan un papel significativo en la determinación del rendimiento final de la GAN. Si estos parámetros no se calibran adecuadamente, puede resultar en un rendimiento subóptimo o en la falla de la red para converger.
Solución: Para lidiar efectivamente con la sensibilidad de las GANs a los hiperparámetros, se recomienda realizar búsquedas sistemáticas de hiperparámetros. Esto implica probar un rango de valores para cada hiperparámetro para identificar el conjunto que produce el mejor rendimiento. Para mejorar aún más el rendimiento, también se pueden utilizar técnicas de optimización adaptativa. Estas técnicas ajustan la tasa de aprendizaje y otros parámetros sobre la marcha, en función del progreso del entrenamiento, lo que puede llevar a un entrenamiento más eficiente y estable.

3.3.3 Técnicas de Entrenamiento Avanzadas

Se han desarrollado varias técnicas avanzadas para abordar los desafíos en el entrenamiento de GANs y mejorar su rendimiento:

Wasserstein GAN (WGAN):

La WGAN, o Red Generativa Adversarial de Wasserstein, introduce una nueva función de pérdida que se basa en la distancia Earth Mover, también conocida como distancia de Wasserstein. Este cambio innovador tiene como objetivo mejorar la estabilidad durante la fase de entrenamiento del modelo y, al mismo tiempo, reducir la prevalencia del colapso de modo, un problema común en las GANs tradicionales.

En el marco de WGAN, el discriminador, que se renombra apropiadamente como el crítico, está diseñado para devolver un número real en lugar de una probabilidad. Esto representa un cambio significativo de la tarea de clasificación binaria en las GANs estándar a una especie de tarea de clasificación en WGANs.

Además, una de las características clave de WGAN es la imposición de una restricción de Lipschitz. Para lograr esto, los pesos dentro del crítico se recortan deliberadamente dentro de un rango específico. Esta restricción particular es un componente crítico para garantizar el rendimiento confiable de la WGAN, ya que permite que el modelo aproxime de manera más efectiva la distancia de Wasserstein.

Ejemplo:

import tensorflow as tf
from tensorflow.keras.layers import Dense, Reshape, Flatten, Conv2D, Conv2DTranspose, LeakyReLU, BatchNormalization
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import RMSprop

# WGAN generator
def build_generator(latent_dim):
    model = Sequential([
        Dense(128 * 7 * 7, activation="relu", input_dim=latent_dim),
        Reshape((7, 7, 128)),
        Conv2DTranspose(128, kernel_size=4, strides=2, padding='same'),
        BatchNormalization(momentum=0.8),
        LeakyReLU(alpha=0.2),
        Conv2DTranspose(64, kernel_size=4, strides=2, padding='same'),
        BatchNormalization(momentum=0.8),
        LeakyReLU(alpha=0.2),
        Conv2DTranspose(1, kernel_size=4, strides=1, padding='same', activation='tanh')
    ])
    return model

# WGAN discriminator (critic)
def build_critic(img_shape):
    model = Sequential([
        Conv2D(64, kernel_size=4, strides=2, padding="same", input_shape=img_shape),
        LeakyReLU(alpha=0.2),
        Conv2D(128, kernel_size=4, strides=2, padding="same"),
        LeakyReLU(alpha=0.2),
        Flatten(),
        Dense(1)
    ])
    return model

# Build the generator and critic
latent_dim = 100
img_shape = (28, 28, 1)
generator = build_generator(latent_dim)
critic = build_critic(img_shape)

# Compile the critic
critic.compile(optimizer=RMSprop(lr=0.00005), loss='mse')

# Compile the WGAN
critic.trainable = False
gan_input = tf.keras.Input(shape=(latent_dim,))
img = generator(gan_input)
validity = critic(img)
wgan = tf.keras.Model(gan_input, validity)
wgan.compile(optimizer=RMSprop(lr=0.00005), loss='mse')

# Clip the weights of the critic to enforce the Lipschitz constraint
for layer in critic.layers:
    weights = layer.get_weights()
    weights = [tf.clip_by_value(w, -0.01, 0.01) for w in weights]
    layer.set_weights(weights)

# Training parameters
epochs = 10000
batch_size = 64
sample_interval = 1000
n_critic = 5  # Number of critic updates per generator update

# Training the WGAN
for epoch in range(epochs):
    for _ in range(n_critic):
        # Train the critic
        idx = np.random.randint(0, x_train.shape[0], batch_size)
        real_images = x_train[idx]
        noise = np.random.normal(0, 1, (batch_size, latent_dim))
        fake_images = generator.predict(noise)
        d_loss_real = critic.train_on_batch(real_images, -np.ones((batch_size, 1)))
        d_loss_fake = critic.train_on_batch(fake_images, np.ones((batch_size, 1)))
        d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

    # Train the generator
    noise = np.random.normal(0, 1, (batch_size, latent_dim))
    g_loss = wgan.train_on_batch(noise, -np.ones((batch_size, 1)))

    # Print progress
    if epoch % sample_interval == 0:
        print(f"{epoch} [D loss: {d_loss}] [G loss: {g_loss}]")

        # Generate and save images
        noise = np.random.normal(0, 1, (10, latent_dim))
        generated_images = generator.predict(noise)
        fig, axs = plt.subplots(1, 10, figsize=(20, 2))
        for i, img in enumerate(generated_images):
            axs[i].imshow(img.squeeze(), cmap='gray')
            axs[i].axis('off')
        plt.show()

En este ejemplo:

En el código de ejemplo, la función 'build_generator' crea el modelo del generador. El generador es una red convolucional inversa (CNN). Toma un punto del espacio latente como entrada y produce una imagen de 28x28x1. El modelo del generador se crea utilizando capas de la API de Keras. Específicamente, consta de capas Dense, Reshape, Conv2DTranspose (para upsampling) y LeakyReLU. También se aplica la normalización por lotes después de las capas Conv2DTranspose para estabilizar el proceso de aprendizaje y reducir el tiempo de entrenamiento.

A continuación, la función 'build_critic' construye el modelo del crítico (también denominado discriminador en el contexto de las GANs). El modelo del crítico es una CNN básica que toma una imagen como entrada y produce un solo valor que representa si la imagen de entrada es real (del conjunto de datos) o generada. Consta de capas Conv2D, LeakyReLU, Flatten y Dense.

Una vez que se construyen los modelos del generador y el crítico, comienza el proceso de entrenamiento. Una de las características distintivas de las WGANs es el recorte de pesos. En este código, los pesos del crítico se recortan para garantizar la restricción de Lipschitz, que es un componente clave de la pérdida de Wasserstein utilizada en las WGANs.

La WGAN se compila y entrena durante un número de épocas. Durante cada época, el crítico y el generador se entrenan alternadamente. El crítico se actualiza con más frecuencia por época (como se indica con 'n_critic'). El crítico aprende a distinguir imágenes reales de falsas, y el generador aprende a engañar al crítico. La pérdida del generador y del crítico se calcula y se imprime para cada época.

A intervalos de épocas definidos por 'sample_interval', se generan y guardan imágenes. Esto permite evaluar visualmente la calidad de las imágenes generadas a medida que avanza el entrenamiento.

En resumen, el propósito de este código de ejemplo es definir y entrenar una WGAN para generar nuevas imágenes que sean similares a las del conjunto de datos de entrenamiento. Al examinar las imágenes guardadas y la pérdida a lo largo del tiempo, podemos evaluar el rendimiento de la WGAN.

Normalización Espectral

La normalización espectral es una técnica sofisticada y altamente efectiva que se utiliza predominantemente para estabilizar el proceso de entrenamiento de Redes Generativas Adversariales (GANs). La función esencial de esta técnica es normalizar la norma espectral de las matrices de pesos. Al hacerlo, controla efectivamente la constante de Lipschitz del discriminador.

Este mecanismo de control es de importancia fundamental ya que impacta directamente en la suavidad de la función que aprende el discriminador. En esencia, cuanto más suave sea la función, más estable será el proceso de entrenamiento. Por lo tanto, la normalización espectral juega un papel crucial en asegurar la robustez y confiabilidad de las GANs.

Ejemplo:

import tensorflow as tf
from tensorflow.keras.layers import Conv2D, Dense, Flatten, LeakyReLU, Conv2DTranspose, Reshape
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Layer
from tensorflow.keras.initializers import RandomNormal

# Spectral normalization layer
class SpectralNormalization(Layer):
    def __init__(self, layer):
        super(SpectralNormalization, self).__init__()
        self.layer = layer

    def build(self, input_shape):
        self.layer.build(input_shape)
        self.u = self.add_weight(shape=(1, self.layer.kernel.shape[-1]), initializer=RandomNormal(), trainable=False)

    def call(self, inputs):
        w = self.layer.kernel
        v = tf.linalg.matvec(tf.transpose(w), self.u)
        v = tf.linalg.matvec(tf.transpose(w), v / tf.linalg.norm(v))
        sigma = tf.linalg.norm(tf.linalg.matvec(w, v))
        self.layer.kernel.assign(w / sigma)
        return self.layer(inputs)

# Example of applying spectral normalization to a discriminator
def build_discriminator(img_shape):
    model = Sequential([
        SpectralNormalization(Conv2D(64, kernel_size=4, strides=2, padding="same", input_shape=img_shape)),
        LeakyReLU(alpha=0.2),
        SpectralNormalization(Conv2D(128, kernel_size=4, strides=2, padding="same")),
        LeakyReLU(alpha=0.2),
        Flatten(),
        SpectralNormalization(Dense(1, activation='sigmoid'))
    ])
    return model

# Instantiate the discriminator
img_shape = (28, 28, 1)
discriminator = build_discriminator(img_shape)
discriminator.summary()

En este ejemplo:

En este código, primero importamos los módulos necesarios de la biblioteca tensorflow. El módulo tensorflow.keras.layers se usa para importar las capas que se utilizarán para construir los modelos. El módulo tensorflow.keras.models se usa para importar el tipo de modelo que se utilizará. Por último, tensorflow.keras.initializers se utiliza para importar el inicializador de los pesos de las capas en los modelos.

Como se discutió, la Normalización Espectral es una técnica para estabilizar el entrenamiento de la GAN normalizando los pesos de las capas del modelo. Esto se hace en la clase SpectralNormalization. Esta clase extiende la clase Layer de keras.layers y agrega un envoltorio de normalización espectral a la capa sobre la que se llama. La normalización se realiza en el método call dividiendo los pesos de la capa por su valor singular más grande (norma espectral). Esto ayuda a controlar la constante de Lipschitz de la función del discriminador y estabilizar el entrenamiento de la GAN.

La función build_discriminator se usa para construir el modelo del discriminador. El discriminador es un modelo de aprendizaje profundo que toma una imagen como entrada y produce un solo valor que representa si la entrada es real (del conjunto de datos) o falsa (generada). Es un modelo Secuencial e incluye capas convolucionales con Normalización Espectral aplicada, funciones de activación LeakyReLU, una capa de aplanamiento para convertir los datos 2D en 1D, y una capa de salida densa con una función de activación sigmoide para producir la probabilidad de que la entrada sea real.

Finalmente, se crea una instancia del modelo del discriminador con la forma de entrada de (28, 28, 1). Esto significa que el discriminador espera imágenes de 28 por 28 píxeles en escala de grises (1 canal de color). Luego, el modelo del discriminador se compila y se imprime la arquitectura del modelo utilizando el método summary.

Al usar la Normalización Espectral en el discriminador, aseguramos un proceso de entrenamiento más estable, lo que puede llevar a mejores resultados al entrenar la GAN.

Crecimiento Progresivo de GANs

Esta técnica avanzada comienza iniciando el proceso de entrenamiento con imágenes de baja resolución. Esta elección estratégica no es arbitraria; es un paso metódico diseñado para simplificar las etapas iniciales del proceso de entrenamiento. A medida que el entrenamiento avanza, hay un aumento gradual en la resolución de las imágenes.

Este aumento metódico ocurre de manera paso a paso, cuidadosamente calibrado para coincidir con la creciente sofisticación del entrenamiento. Este enfoque tiene un doble beneficio: no solo estabiliza el proceso de entrenamiento, asegurando que pueda proceder sin volatilidad disruptiva, sino que también conduce a salidas de mayor calidad.

Las salidas resultantes, por lo tanto, no solo son más detalladas, sino que también exhiben un aumento notable en su calidad general, lo que hace que esta técnica sea una elección preferida para muchos.

Ejemplo:

import tensorflow as tf
from tensorflow.keras.layers import Dense, Reshape, Flatten, Conv2D, Conv2DTranspose, LeakyReLU
from tensorflow.keras.models import Sequential

# Progressive Growing Generator
def build_generator(latent_dim, current_resolution):
    model = Sequential()
    initial_resolution = 4

    model.add(Dense(128 * initial_resolution * initial_resolution, input_dim=latent_dim))
    model.add(Reshape((initial_resolution, initial_resolution, 128)))
    model.add(LeakyReLU(alpha=0.2))

    current_layers = initial_resolution
    while current_layers < current_resolution:
        model.add(Conv2DTranspose(128, kernel_size=4, strides=2, padding='same'))
        model.add(LeakyReLU(alpha=0.2))
        current_layers *= 2

    model.add(Conv2D(1, kernel_size=3, padding='same', activation='tanh'))
    return model

# Progressive Growing Discriminator
def build_discriminator(current_resolution):
    model = Sequential()
    initial_resolution = current_resolution
    while initial_resolution > 4:
        model.add(Conv2D(128, kernel_size=4, strides=2, padding='same', input_shape=(initial_resolution, initial_resolution, 1)))
        model.add(LeakyReLU(alpha=0.2))
        initial_resolution //= 2

    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))
    return model

# Example usage
latent_dim = 100
current_resolution = 32
generator = build_generator(latent_dim, current_resolution)
discriminator = build_discriminator(current_resolution)

generator.summary()
discriminator.summary()

En este ejemplo:

La función build_generator define la arquitectura del modelo generador. La función principal del generador en una GAN es generar nuevas instancias de datos. Comienza con una capa densa que toma un punto del espacio latente como entrada. El espacio latente es un espacio multidimensional de valores distribuidos gaussianamente y sirve como una fuente de aleatoriedad que el modelo utilizará para generar nuevas instancias. La salida de la capa densa se remodela para tener tres dimensiones.

Luego, el generador agrega pares de capas Conv2DTranspose (también conocidas como capas de deconvolución) y capas LeakyReLU. Las capas Conv2DTranspose aumentan el tamaño de los datos de entrada, duplicando las dimensiones de ancho y alto y aumentando efectivamente la resolución de la imagen generada. Las capas LeakyReLU añaden no linealidad al modelo, lo que le permite aprender patrones más complejos. Este proceso continúa mientras la resolución de la imagen generada sea menor que la resolución deseada.

Finalmente, el generador agrega una capa Conv2D que reduce la profundidad de la imagen generada a 1, produciendo así una imagen en escala de grises. Esta capa utiliza una función de activación tanh, que produce valores entre -1 y 1, coincidiendo con los valores de píxel esperados de las imágenes generadas.

La función build_discriminator define la arquitectura del modelo discriminador. El papel del discriminador en una GAN es clasificar las imágenes como reales (del conjunto de entrenamiento) o falsas (generadas por el generador). El discriminador es esencialmente una red neuronal convolucional (CNN) que comienza con una forma de entrada que corresponde a la resolución de las imágenes que analizará.

El discriminador agrega pares de capas Conv2D y LeakyReLU, que reducen las dimensiones de la imagen de entrada a la mitad con cada capa, disminuyendo efectivamente la resolución. Este proceso continúa hasta que la resolución de la imagen se reduce a 4x4.

La salida de la última capa convolucional se aplana a una sola dimensión y se pasa a través de una capa densa con una función de activación sigmoide. La función sigmoide produce un valor entre 0 y 1, representando la clasificación del discriminador de la imagen de entrada como real o falsa.

Luego, se instancian el generador y el discriminador con una dimensión latente de 100 y una resolución actual de 32, y se imprimen sus resúmenes. La dimensión latente corresponde al tamaño del vector de ruido aleatorio que toma el generador como entrada, mientras que la resolución actual corresponde al ancho y alto (en píxeles) de las imágenes que el generador produce y el discriminador analiza.

Este código forma la base de una GAN de crecimiento progresivo, un tipo avanzado de GAN que comienza el proceso de entrenamiento con imágenes de baja resolución y aumenta progresivamente la resolución a medida que continúa el entrenamiento. Esta técnica ayuda a estabilizar el proceso de entrenamiento y a menudo resulta en imágenes generadas de mayor calidad.

3.3.4 Resumen

El entrenamiento de Redes Generativas Adversariales (GANs) es un proceso delicado y matizado que requiere un equilibrio cuidadoso en la dinámica de entrenamiento entre el generador y el discriminador, los dos componentes fundamentales de la arquitectura GAN. El generador y el discriminador participan en un juego continuo de gato y ratón, donde el generador intenta producir datos que el discriminador no pueda distinguir del conjunto de datos real, mientras que el objetivo del discriminador es identificar los datos falsos.

Adquirir una comprensión profunda de este proceso de entrenamiento básico es indispensable. Esto incluye abordar los desafíos comunes que surgen durante el proceso de entrenamiento, como el colapso de modo, donde el generador produce una diversidad limitada de muestras, y la inestabilidad, donde el generador y el discriminador no convergen.

Además, el uso de técnicas avanzadas puede mejorar enormemente la estabilidad y el rendimiento general de las GANs. Técnicas como Wasserstein GAN (WGAN), una mejora sobre las GANs tradicionales que cambia la función de pérdida para usar una distancia de Wasserstein y ha demostrado ayudar con la estabilidad del entrenamiento; la normalización espectral, un método de normalización que estabiliza el entrenamiento del discriminador; y el crecimiento progresivo, una metodología de entrenamiento que aumenta progresivamente tanto el generador como el discriminador, mejorando la calidad de las imágenes generadas.

Dominar estas técnicas y comprender la dinámica de las GANs es crucial para aplicar efectivamente las GANs a diversas tareas de modelado generativo. Ya sea generando imágenes realistas, realizando superresolución de imágenes o simulando modelos 3D, la aplicación de las GANs es vasta y su potencial inmenso.