8.1 Recolección y Preprocesamiento de Datos

En este capítulo, realizaremos un proyecto emocionante para generar texto utilizando modelos autoregresivos. Este proyecto proporcionará una experiencia práctica con todo el flujo de trabajo de construcción, entrenamiento y evaluación de un modelo autoregresivo para la generación de texto. Al final de este capítulo, tendrás una comprensión completa de cómo aplicar estos modelos para crear texto coherente y contextualmente relevante.

Nuestro proyecto se centrará en utilizar el modelo GPT-2, un modelo autoregresivo basado en Transformers muy popular, para generar texto basado en un prompt dado. Cubriremos los siguientes temas en este capítulo:

Recolección y Preprocesamiento de Datos
Creación del Modelo
Entrenamiento del Modelo
Generación de Texto
Evaluación del Modelo

Comencemos con el primer paso de nuestro proyecto: la recolección y el preprocesamiento de datos.

La recolección y el preprocesamiento de datos son pasos críticos en cualquier proyecto de aprendizaje automático. Los datos correctamente preparados aseguran que el modelo pueda aprender de manera efectiva y generalizar bien a nuevos datos. En esta sección, nos centraremos en la recolección y el preprocesamiento de los datos de texto necesarios para entrenar nuestro modelo autoregresivo.

8.1.1 Recolección de Datos de Texto

Para nuestro proyecto de generación de texto, necesitamos una cantidad sustancial de datos de texto. Hay varias fuentes de las cuales podemos recolectar datos de texto, como libros, artículos y contenido en línea. Para simplificar, usaremos un conjunto de datos de textos disponibles públicamente.

Usaremos la biblioteca Hugging Face Datasets para descargar y cargar el conjunto de datos. La biblioteca Hugging Face Datasets proporciona acceso a una amplia gama de conjuntos de datos de texto que se utilizan comúnmente para tareas de procesamiento de lenguaje natural.

Ejemplo: Cargando un Conjunto de Datos de Texto

from datasets import load_dataset

# Load the WikiText-2 dataset
dataset = load_dataset("wikitext", "wikitext-2-raw-v1")

# Print the first example from the training set
print(dataset["train"][0])

8.1.2 Preprocesamiento de los Datos de Texto

El preprocesamiento de los datos de texto implica varios pasos:

Tokenización: Convertir el texto en una secuencia de tokens (palabras o subpalabras).
Normalización: Convertir a minúsculas, eliminar puntuación y manejar caracteres especiales.
Creación de Secuencias: Dividir el texto en secuencias de una longitud fija que puedan ser alimentadas al modelo.

Usaremos el tokenizador de GPT-2 proporcionado por la biblioteca Hugging Face Transformers para la tokenización. Este tokenizador está diseñado para funcionar sin problemas con el modelo GPT-2 y manejará los pasos de preprocesamiento necesarios.

Ejemplo: Preprocesamiento de los Datos de Texto

from transformers import GPT2Tokenizer

# Load the GPT-2 tokenizer
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

# Define a function to preprocess the text data
def preprocess_text(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)

# Apply the preprocessing function to the dataset
tokenized_dataset = dataset.map(preprocess_text, batched=True)

# Print the first tokenized example from the training set
print(tokenized_dataset["train"][0])

Este código utiliza la biblioteca transformers para cargar un tokenizador de GPT-2. El tokenizador se usa para preprocesar datos de texto de un conjunto de datos. La función de preprocesamiento trunca o rellena el texto a una longitud máxima de 512 tokens. El conjunto de datos tokenizado se crea aplicando la función de preprocesamiento al conjunto de datos original. La última línea del código imprime el primer ejemplo tokenizado del conjunto de entrenamiento.

8.1.3 Creación de Secuencias de Entrenamiento

Después de la tokenización, necesitamos crear secuencias de entrenamiento que puedan ser alimentadas al modelo. Cada secuencia debe tener una longitud fija y las secuencias consecutivas deben superponerse para garantizar que el modelo pueda aprender las dependencias entre palabras a través de los límites de las secuencias.

Dividiremos el texto tokenizado en secuencias de una longitud fija, con una superposición entre secuencias consecutivas.

Ejemplo: Creación de Secuencias de Entrenamiento

import numpy as np

# Define the sequence length and the overlap size
sequence_length = 128
overlap_size = 64

# Function to create training sequences
def create_sequences(tokenized_text, seq_length, overlap):
    total_length = len(tokenized_text)
    sequences = []
    for i in range(0, total_length - seq_length, seq_length - overlap):
        seq = tokenized_text[i:i + seq_length]
        sequences.append(seq)
    return sequences

# Extract the tokenized text from the dataset
tokenized_text = tokenized_dataset["train"]["input_ids"]

# Create training sequences
training_sequences = create_sequences(tokenized_text, sequence_length, overlap_size)

# Print the first training sequence
print(training_sequences[0])

Este código importa la biblioteca numpy, define la longitud de la secuencia y el tamaño de la superposición, y luego define una función para crear secuencias. Aplica esta función a un texto tokenizado del conjunto de datos, creando secuencias superpuestas de una longitud especificada. Luego se imprime la primera secuencia de entrenamiento.