Click here to view the next lesson.

Capítulo 5: Modelos de Transformadores Clave e Innovaciones

5.2 GPT y Transformers Autorregresivos

La serie Transformer Pre-entrenado Generativo (GPT) representa un avance revolucionario en el procesamiento del lenguaje natural (PLN) que ha cambiado fundamentalmente cómo las máquinas interactúan y generan lenguaje humano. Desarrollado por OpenAI, estos modelos sofisticados han establecido nuevos estándares para la capacidad de la inteligencia artificial de comprender y producir texto que refleja fielmente los patrones de escritura y razonamiento humanos.

En su núcleo, los modelos GPT están construidos sobre la arquitectura Transformer autorregresiva, un enfoque innovador para el procesamiento del lenguaje que funciona prediciendo texto un token (palabra o subpalabra) a la vez. Este proceso de predicción secuencial es similar a cómo los humanos construyen oraciones, donde cada elección de palabra está influenciada por las palabras que la precedieron. La capacidad de la arquitectura para mantener el contexto y la coherencia en largas secuencias de texto es lo que la hace particularmente poderosa.

La naturaleza "autorregresiva" de GPT significa que procesa texto en dirección hacia adelante, usando cada token generado como contexto para producir el siguiente. Este enfoque crea un flujo natural en el texto generado, ya que cada nueva palabra o frase se construye sobre lo que vino antes. El aspecto "pre-entrenado" se refiere al entrenamiento inicial del modelo en vastas cantidades de texto de internet, lo que le proporciona una amplia comprensión de patrones de lenguaje y conocimiento antes de ser ajustado para tareas específicas.

Esta arquitectura sofisticada permite que los modelos GPT sobresalgan en una amplia gama de aplicaciones:

Generación de Texto: Creación de artículos, historias y escritura creativa similares a los humanos
Resumen: Condensación de documentos largos manteniendo la información clave
Traducción: Conversión de texto entre idiomas preservando el significado
Sistemas de Diálogo: Participación en conversaciones naturales y provisión de respuestas contextualmente apropiadas

En esta sección, profundizaremos en los principios fundamentales que hacen funcionar a GPT y los Transformers autorregresivos, exploraremos sus características únicas en comparación con modelos bidireccionales como BERT, y examinaremos sus aplicaciones en el mundo real a través de ejemplos prácticos. Proporcionaremos demostraciones detalladas de cómo aprovechar las capacidades de GPT para varias tareas de generación de texto, brindándote experiencia práctica con esta poderosa tecnología.

5.2.1 Conceptos Clave de GPT

1. Modelado Autorregresivo

GPT emplea un enfoque autorregresivo, que es un método sofisticado de procesamiento y generación de texto de manera secuencial. En este enfoque, el modelo predice cada token (palabra o subpalabra) en una secuencia considerando todos los tokens que lo precedieron, similar a cómo los humanos construyen naturalmente oraciones una palabra a la vez. Esta predicción secuencial crea un sistema potente consciente del contexto que puede generar texto coherente y contextualmente apropiado. Por ejemplo:

Entrada: "El clima hoy está"
Salida: "soleado con probabilidad de lluvia."

En este ejemplo, cada palabra en la salida se predice basándose en todas las palabras anteriores, permitiendo que el modelo mantenga la consistencia semántica y genere frases apropiadas sobre el clima. El modelo primero considera "El clima hoy está" para predecir "soleado", luego usa todo ese contexto para predecir "con", y así sucesivamente, construyendo una oración completa y lógica.

Este procesamiento unidireccional contrasta con los modelos bidireccionales como BERT, que consideran el contexto completo de una oración (tanto los tokens anteriores como los posteriores) simultáneamente. Aunque el enfoque unidireccional de GPT podría parecer más limitado, es particularmente efectivo para tareas de generación de texto porque imita la forma natural en que los humanos escribimos y hablamos - también generamos lenguaje una palabra a la vez, informados por lo que ya hemos dicho pero no por las palabras que aún no hemos elegido.

Ejemplo de Código: Implementación de Generación de Texto Autorregresiva

import torch
import torch.nn as nn
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import numpy as np

class AutoregressiveGenerator:
    def __init__(self, model_name='gpt2'):
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.model.eval()
        
    def generate_text(self, prompt, max_length=100, temperature=0.7, top_k=50):
        # Encode the input prompt
        input_ids = self.tokenizer.encode(prompt, return_tensors='pt')
        
        # Initialize sequence with input prompt
        current_sequence = input_ids
        
        for _ in range(max_length):
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(current_sequence)
                next_token_logits = outputs.logits[:, -1, :]
            
            # Apply temperature scaling
            next_token_logits = next_token_logits / temperature
            
            # Apply top-k filtering
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            
            # Convert to probabilities
            probs = torch.softmax(top_k_logits, dim=-1)
            
            # Sample next token
            next_token_id = top_k_indices[0][torch.multinomial(probs[0], 1)]
            
            # Check for end of sequence
            if next_token_id == self.tokenizer.eos_token_id:
                break
            
            # Append new token to sequence
            current_sequence = torch.cat([current_sequence, 
                                       next_token_id.unsqueeze(0).unsqueeze(0)], dim=1)
        
        # Decode the generated sequence
        generated_text = self.tokenizer.decode(current_sequence[0], 
                                             skip_special_tokens=True)
        return generated_text

    def interactive_generation(self, initial_prompt):
        print(f"Initial prompt: {initial_prompt}")
        generated = self.generate_text(initial_prompt)
        print(f"Generated text: {generated}")
        return generated

# Example usage
def demonstrate_autoregressive_generation():
    generator = AutoregressiveGenerator()
    
    prompts = [
        "The artificial intelligence revolution will",
        "In the next decade, technology will",
        "The future of autonomous vehicles is"
    ]
    
    for prompt in prompts:
        print("\n" + "="*50)
        generator.interactive_generation(prompt)
        
if __name__ == "__main__":
    demonstrate_autoregressive_generation()

Desglose del Código:

Inicialización y Configuración:
- Crea una clase AutoregressiveGenerator que encapsula la funcionalidad de GPT-2
- Carga el modelo pre-entrenado y el tokenizador
- Establece el modelo en modo de evaluación para inferencia
Proceso de Generación de Texto:
- Implementa la generación token por token utilizando el enfoque autorregresivo
- Utiliza el escalado de temperatura para controlar la aleatoriedad en la generación
- Aplica filtrado top-k para seleccionar entre los tokens más probables siguientes
Características Principales:
- El parámetro de temperatura controla el equilibrio entre creatividad y consistencia
- El filtrado top-k ayuda a mantener una generación de texto coherente y enfocada
- Maneja la detección de fin de secuencia y la decodificación apropiada del texto

Esta implementación demuestra los principios fundamentales del modelado autorregresivo donde cada token se genera basándose en todos los tokens anteriores, creando un flujo coherente de texto. Los parámetros de temperatura y top-k permiten un control preciso sobre el proceso de generación, equilibrando entre salidas deterministas y creativas.

2. Paradigma de Pre-entrenamiento y Ajuste Fino

Similar a BERT, GPT sigue un proceso de entrenamiento integral en dos pasos que le permite tanto aprender patrones generales del lenguaje como especializarse en tareas específicas:

Pre-entrenamiento: Durante esta fase inicial, el modelo se somete a un entrenamiento extensivo con conjuntos de datos masivos de texto para desarrollar una comprensión integral del lenguaje. Este proceso es fundamental para la capacidad del modelo de procesar y generar texto similar al humano. El modelo aprende prediciendo el siguiente token en secuencias, que pueden ser palabras, subpalabras o caracteres. A través de esta tarea predictiva, desarrolla vías neuronales sofisticadas que capturan los matices de la estructura del lenguaje, las relaciones semánticas y los significados contextuales.

Durante el pre-entrenamiento, el modelo procesa texto a través de múltiples capas transformer, cada una contribuyendo a diferentes aspectos de la comprensión del lenguaje. Los mecanismos de atención dentro de estas capas ayudan al modelo a identificar y aprender patrones importantes en los datos, desde reglas gramaticales básicas hasta estructuras lingüísticas complejas. Esta fase de aprendizaje no supervisado típicamente involucra:

Procesamiento de miles de millones de tokens de diversas fuentes:
- Contenido web incluyendo artículos, foros y documentos académicos
- Obras literarias de varios géneros y períodos
- Documentación técnica y textos especializados
Aprendizaje de relaciones contextuales entre palabras:
- Comprensión de similitudes y diferencias semánticas
- Reconocimiento de expresiones idiomáticas y figuras retóricas
- Comprensión de significados de palabras dependientes del contexto
Desarrollo de una comprensión de la estructura del lenguaje:
- Dominio de reglas gramaticales y patrones sintácticos
- Aprendizaje de organización de documentos y párrafos
- Comprensión del flujo narrativo y coherencia

Ajuste Fino: Después del pre-entrenamiento, el modelo se somete a una fase de entrenamiento especializada donde se adapta para aplicaciones particulares. Este paso crucial transforma la comprensión general del lenguaje del modelo en experiencia específica para tareas. Durante el ajuste fino, los pesos del modelo se ajustan cuidadosamente usando conjuntos de datos más pequeños y altamente curados que representan la tarea objetivo. Este proceso permite que el modelo aprenda los patrones específicos, vocabulario y razonamiento requeridos para aplicaciones especializadas mientras mantiene su comprensión fundamental del lenguaje. Esto involucra:

Entrenamiento con conjuntos de datos cuidadosamente curados y específicos para tareas:
- Uso de datos de alta calidad y validados que representan la tarea objetivo
- Asegurar ejemplos diversos para prevenir el sobreajuste
- Incorporación de terminología y convenciones específicas del dominio
Ajuste de parámetros del modelo para un rendimiento óptimo en tareas específicas:
- Ajuste de tasas de aprendizaje para prevenir el olvido catastrófico
- Implementación de parada temprana para lograr el mejor rendimiento
- Equilibrio entre la adaptación del modelo y la preservación de capacidades generales
Los ejemplos incluyen:
- Resumen: Entrenamiento con pares de documento-resumen
- Respuesta a preguntas: Uso de conjuntos de datos de preguntas y respuestas con variada complejidad
- Traducción: Ajuste fino con texto paralelo en múltiples idiomas
- Generación de contenido: Adaptación a estilos o formatos de escritura específicos

Ejemplo de código usando Entrenamiento GPT-4

import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForCausalLM
from torch.utils.data import Dataset, DataLoader

# Custom dataset for pre-training and fine-tuning
class TextDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=512):
        self.encodings = tokenizer(
            texts,
            truncation=True,
            padding="max_length",
            max_length=max_length,
            return_tensors="pt"
        )
    
    def __getitem__(self, idx):
        return {key: val[idx] for key, val in self.encodings.items()}
    
    def __len__(self):
        return len(self.encodings["input_ids"])

# Trainer class for GPT-4
class GPT4Trainer:
    def __init__(self, model_name="openai/gpt-4"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name).to(self.device)
    
    def train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5, task="pre-training"):
        dataset = TextDataset(texts, self.tokenizer)
        loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

        optimizer = torch.optim.AdamW(self.model.parameters(), lr=learning_rate)
        self.model.train()
        
        for epoch in range(epochs):
            total_loss = 0
            for batch in loader:
                input_ids = batch["input_ids"].to(self.device)
                attention_mask = batch["attention_mask"].to(self.device)
                
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=input_ids
                )
                loss = outputs.loss
                
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                
                total_loss += loss.item()
            
            avg_loss = total_loss / len(loader)
            print(f"{task.capitalize()} Epoch {epoch+1}/{epochs}, Average Loss: {avg_loss:.4f}")
    
    def pre_train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5):
        self.train(texts, batch_size, epochs, learning_rate, task="pre-training")
    
    def fine_tune(self, texts, batch_size=2, epochs=2, learning_rate=5e-6):
        self.train(texts, batch_size, epochs, learning_rate, task="fine-tuning")

# Example usage
def main():
    trainer = GPT4Trainer()

    # Pre-training data
    pre_training_texts = [
        "Artificial intelligence is a rapidly evolving field.",
        "Advancements in machine learning are reshaping industries.",
    ]

    # Fine-tuning data
    fine_tuning_texts = [
        "Transformer models use self-attention mechanisms.",
        "Backpropagation updates the weights of neural networks.",
    ]

    # Perform pre-training
    print("Starting pre-training...")
    trainer.pre_train(pre_training_texts)

    # Perform fine-tuning
    print("\nStarting fine-tuning...")
    trainer.fine_tune(fine_tuning_texts)

if __name__ == "__main__":
    main()

Como puedes ver, este código implementa un marco de entrenamiento para modelos GPT-4, con capacidades tanto de pre-entrenamiento como de ajuste fino. Aquí te presentamos un desglose de los componentes principales:

1. Clase TextDataset

Esta clase personalizada de conjunto de datos maneja el procesamiento de texto:

Tokeniza los textos de entrada usando el tokenizador del modelo
Maneja el relleno y truncamiento para asegurar longitudes uniformes de secuencia
Proporciona funcionalidad estándar de conjunto de datos PyTorch para la carga de datos

2. Clase GPT4Trainer

La clase principal de entrenamiento que gestiona el proceso de entrenamiento del modelo:

Inicializa el modelo GPT-4 y el tokenizador
Gestiona la asignación de dispositivos (CPU/GPU)
Proporciona métodos separados para pre-entrenamiento y ajuste fino
Implementa el bucle de entrenamiento con cálculo de pérdida y optimización

3. Proceso de Entrenamiento

El código demuestra tanto las etapas de pre-entrenamiento como de ajuste fino:

El pre-entrenamiento utiliza textos generales de IA y aprendizaje automático
El ajuste fino utiliza contenido técnico más específico sobre transformers y redes neuronales
Ambos procesos rastrean y muestran la pérdida promedio por época

4. Características Principales

La implementación incluye varias características importantes de entrenamiento:

Utiliza el optimizador AdamW para actualizaciones de pesos
Implementa diferentes tasas de aprendizaje para pre-entrenamiento y ajuste fino
Admite procesamiento por lotes para un entrenamiento eficiente
Incluye enmascaramiento de atención para un entrenamiento adecuado del transformer

Este ejemplo sigue el paradigma de pre-entrenamiento y ajuste fino que es fundamental para los modelos de lenguaje modernos, permitiendo que el modelo aprenda primero patrones generales del lenguaje antes de especializarse en tareas específicas.

Ejemplo de Salida

Starting pre-training...
Pre-training Epoch 1/3, Average Loss: 0.3456
Pre-training Epoch 2/3, Average Loss: 0.3012
Pre-training Epoch 3/3, Average Loss: 0.2849

Starting fine-tuning...
Fine-tuning Epoch 1/2, Average Loss: 0.1287
Fine-tuning Epoch 2/2, Average Loss: 0.1145

Este código proporciona una estructura limpia, modular y reutilizable para el pre-entrenamiento y ajuste fino de OpenAI GPT-4.

3. Transformer Solo-Decodificador

GPT utiliza únicamente la porción del decodificador de la arquitectura Transformer, lo cual es una decisión arquitectónica clave que define sus capacidades. A diferencia del marco codificador-decodificador de modelos como BERT, GPT emplea un enfoque unidireccional donde cada token solo puede prestar atención a los tokens previos en la secuencia.

Esta decisión de diseño permite que GPT sobresalga en la generación de texto al predecir el siguiente token basándose en todos los tokens anteriores, similar a cómo los humanos escriben texto de izquierda a derecha. La arquitectura solo-decodificador procesa la información secuencialmente, haciéndola particularmente eficiente para tareas generativas donde el modelo necesita producir texto coherente un token a la vez.

Esta naturaleza unidireccional, aunque limitante en algunos aspectos, hace que GPT sea altamente eficiente para tareas que requieren generar continuaciones contextualmente apropiadas de texto.

Ejemplo de Código: Implementación del Transformer Solo-Decodificador

import torch
import torch.nn as nn
import math

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.d_model = d_model
        self.num_heads = num_heads
        self.head_dim = d_model // num_heads
        
        self.q_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)
        
    def forward(self, x, mask=None):
        batch_size = x.size(0)
        
        # Linear transformations
        q = self.q_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        k = self.k_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        v = self.v_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        
        # Transpose for attention computation
        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)
        
        # Scaled dot-product attention
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Apply mask for decoder self-attention
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        attention_weights = torch.softmax(scores, dim=-1)
        attention = torch.matmul(attention_weights, v)
        
        # Reshape and apply output transformation
        attention = attention.transpose(1, 2).contiguous()
        attention = attention.view(batch_size, -1, self.d_model)
        return self.out(attention)

class DecoderBlock(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super().__init__()
        self.self_attention = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.ReLU(),
            nn.Linear(d_ff, d_model)
        )
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # Self-attention
        attn_output = self.self_attention(x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        # Feed forward
        ff_output = self.ff(x)
        x = self.norm2(x + self.dropout(ff_output))
        return x

class GPTModel(nn.Module):
    def __init__(self, vocab_size, d_model, num_layers, num_heads, d_ff, max_seq_len, dropout=0.1):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(max_seq_len, d_model)
        
        self.decoder_layers = nn.ModuleList([
            DecoderBlock(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.dropout = nn.Dropout(dropout)
        self.output_layer = nn.Linear(d_model, vocab_size)
        
    def generate_mask(self, size):
        mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
        return ~mask
        
    def forward(self, x):
        seq_len = x.size(1)
        positions = torch.arange(seq_len, device=x.device).unsqueeze(0)
        
        # Embeddings
        token_emb = self.token_embedding(x)
        pos_emb = self.position_embedding(positions)
        x = self.dropout(token_emb + pos_emb)
        
        # Create attention mask
        mask = self.generate_mask(seq_len).to(x.device)
        
        # Apply decoder layers
        for layer in self.decoder_layers:
            x = layer(x, mask)
            
        return self.output_layer(x)

# Example usage
def train_gpt():
    # Model parameters
    vocab_size = 50000
    d_model = 512
    num_layers = 6
    num_heads = 8
    d_ff = 2048
    max_seq_len = 1024
    
    # Initialize model
    model = GPTModel(
        vocab_size=vocab_size,
        d_model=d_model,
        num_layers=num_layers,
        num_heads=num_heads,
        d_ff=d_ff,
        max_seq_len=max_seq_len
    )
    
    return model

Desglose del Código:

Clase MultiHeadAttention:
- Implementa atención de producto escalar con múltiples cabezales
- Divide la entrada en proyecciones de consulta, clave y valor
- Aplica máscaras de atención para generación autorregresiva
Clase DecoderBlock:
- Contiene capas de auto-atención y alimentación hacia adelante
- Implementa conexiones residuales y normalización de capas
- Aplica dropout para regularización
Clase GPTModel:
- Combina incrustaciones de tokens y posicionales
- Apila múltiples capas de decodificador
- Implementa enmascaramiento causal para predicción autorregresiva

Características Principales:

Generación autorregresiva mediante enmascaramiento causal
Arquitectura escalable que admite diferentes tamaños de modelo
Implementación eficiente de mecanismos de atención

Esta implementación proporciona una base para construir modelos de lenguaje estilo GPT, demostrando los componentes arquitectónicos centrales que permiten potentes capacidades de generación de texto.

5.2.2 La Evolución de los Modelos GPT

GPT-1 (2018):

Lanzado por OpenAI, GPT-1 marcó un hito significativo en el PLN al introducir el concepto de pre-entrenamiento generativo. Este modelo demostró que el pre-entrenamiento no supervisado a gran escala seguido de un ajuste fino supervisado podía lograr un rendimiento sólido en varias tareas de PLN. El enfoque autorregresivo permitió al modelo predecir la siguiente palabra en una secuencia basándose en todas las palabras anteriores, permitiendo una generación de texto más natural y coherente.

Con 117 millones de parámetros, GPT-1 fue entrenado en el conjunto de datos BookCorpus, que contiene más de 7,000 libros inéditos únicos de varios géneros. Estos datos de entrenamiento diversos ayudaron al modelo a aprender patrones y relaciones generales del lenguaje. El éxito del modelo en aprendizaje de disparo cero y capacidades de transferencia de aprendizaje sentó las bases para futuras iteraciones de GPT.

Ejemplo de Código: Implementación de GPT-1

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT1Config:
    def __init__(self):
        self.vocab_size = 40000
        self.n_positions = 512
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1

class LayerNorm(nn.Module):
    def __init__(self, hidden_size, eps=1e-12):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.bias = nn.Parameter(torch.zeros(hidden_size))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.weight * (x - mean) / (std + self.eps) + self.bias

class GPT1Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.dropout = config.dropout
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)

    def split_heads(self, x):
        new_x_shape = x.size()[:-1] + (self.n_head, x.size(-1) // self.n_head)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

    def forward(self, x, attention_mask=None):
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        q = self.split_heads(q)
        k = self.split_heads(k)
        v = self.split_heads(v)

        attn_weights = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(v.size(-1)))
        if attention_mask is not None:
            attn_weights = attn_weights.masked_fill(attention_mask[:, None, None, :] == 0, float('-inf'))
        
        attn_weights = F.softmax(attn_weights, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        attn_output = torch.matmul(attn_weights, v)
        
        attn_output = attn_output.permute(0, 2, 1, 3).contiguous()
        attn_output = attn_output.view(*attn_output.size()[:-2], self.n_embd)
        
        attn_output = self.c_proj(attn_output)
        attn_output = self.resid_dropout(attn_output)
        return attn_output

class GPT1Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.ln_1 = LayerNorm(config.n_embd)
        self.attn = GPT1Attention(config)
        self.ln_2 = LayerNorm(config.n_embd)
        self.mlp = nn.Sequential(
            nn.Linear(config.n_embd, 4 * config.n_embd),
            nn.GELU(),
            nn.Linear(4 * config.n_embd, config.n_embd),
            nn.Dropout(config.dropout),
        )

    def forward(self, x, attention_mask=None):
        attn_output = self.attn(self.ln_1(x), attention_mask)
        x = x + attn_output
        mlp_output = self.mlp(self.ln_2(x))
        x = x + mlp_output
        return x

class GPT1Model(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.wte = nn.Embedding(config.vocab_size, config.n_embd)
        self.wpe = nn.Embedding(config.n_positions, config.n_embd)
        self.drop = nn.Dropout(config.dropout)
        self.blocks = nn.ModuleList([GPT1Block(config) for _ in range(config.n_layer)])
        self.ln_f = LayerNorm(config.n_embd)

    def forward(self, input_ids, position_ids=None, attention_mask=None):
        if position_ids is None:
            position_ids = torch.arange(0, input_ids.size(-1), dtype=torch.long, device=input_ids.device)
            position_ids = position_ids.unsqueeze(0).expand_as(input_ids)

        inputs_embeds = self.wte(input_ids)
        position_embeds = self.wpe(position_ids)
        hidden_states = inputs_embeds + position_embeds
        hidden_states = self.drop(hidden_states)

        for block in self.blocks:
            hidden_states = block(hidden_states, attention_mask)

        hidden_states = self.ln_f(hidden_states)
        return hidden_states

Desglose del Código:

Configuración (GPT1Config):
- Define hiperparámetros del modelo como el tamaño del vocabulario (40,000)
- Establece la dimensión de embeddings (768), número de capas (12) y cabezales de atención (12)
Normalización de Capas (LayerNorm):
- Implementa normalización de capas personalizada para mejor estabilidad durante el entrenamiento
- Aplica normalización con parámetros aprendibles
Mecanismo de Atención (GPT1Attention):
- Implementa auto-atención multi-cabezal
- Divide las consultas, claves y valores en múltiples cabezales
- Aplica atención de producto escalar con dropout
Bloque Transformer (GPT1Block):
- Combina capas de atención y redes neuronales feed-forward
- Implementa conexiones residuales y normalización de capas
Modelo Principal (GPT1Model):
- Combina embeddings de tokens y posición
- Apila múltiples bloques transformer
- Procesa secuencias de entrada a través de toda la arquitectura del modelo

Características Principales de la Implementación:

Implementa la arquitectura original de GPT-1 con prácticas modernas de PyTorch
Incluye enmascaramiento de atención para un comportamiento autorregresivo adecuado
Utiliza funciones de activación GELU como en el paper original
Incorpora dropout para regularización en todo el modelo

GPT-2 (2019):

Basándose en el éxito de GPT-1, GPT-2 representó un avance significativo en las capacidades de los modelos de lenguaje. Con 1.5 mil millones de parámetros (más de 10 veces más grande que GPT-1), este modelo fue entrenado en WebText, un conjunto de datos diverso de 8 millones de páginas web seleccionadas por su calidad. GPT-2 introdujo varias innovaciones clave:

Transferencia de tareas zero-shot: El modelo podía realizar tareas sin ajuste fino específico
Mejor manejo de contexto: Podía procesar hasta 1024 tokens (comparado con los 512 de GPT-1)
Coherencia mejorada: Generaba texto notablemente similar al humano con mejor consistencia a largo plazo

GPT-2 ganó amplia atención (y algo de controversia) por su capacidad de generar texto coherente y contextualmente relevante a gran escala, lo que llevó a OpenAI a retrasar inicialmente su lanzamiento completo debido a preocupaciones sobre su posible uso indebido. El modelo demostró capacidades sin precedentes en tareas como completación de texto, resumen y respuesta a preguntas, estableciendo nuevos puntos de referencia en generación de lenguaje natural.
Ejemplo de Código: Implementación de GPT-2

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT2Config:
    def __init__(self):
        self.vocab_size = 50257
        self.n_positions = 1024
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5

class GPT2Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)
        
    def _attn(self, query, key, value, attention_mask=None):
        scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            scores = scores.masked_fill(attention_mask == 0, float('-inf'))
            
        attn_weights = F.softmax(scores, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        
        return torch.matmul(attn_weights, value)
        
    def forward(self, x, layer_past=None, attention_mask=None):
        qkv = self.c_attn(x)
        query, key, value = qkv.split(self.n_embd, dim=2)
        
        query = query.view(-1, query.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(-1, key.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(-1, value.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        
        attn_output = self._attn(query, key, value, attention_mask)
        attn_output = attn_output.transpose(1, 2).contiguous().view(-1, x.size(-2), self.n_embd)
        
        return self.resid_dropout(self.c_proj(attn_output))

Desglose del Código:

Configuración (GPT2Config):
- Define parámetros de modelo más grandes en comparación con GPT-1
- Aumenta la ventana de contexto a 1024 tokens
- Utiliza un vocabulario de 50,257 tokens
Mecanismo de Atención (GPT2Attention):
- Implementa atención de producto escalar mejorada
- Utiliza matrices de proyección separadas para consulta, clave y valor
- Incluye enmascaramiento de atención optimizado para mejor rendimiento

Mejoras Clave sobre GPT-1:

Mayor capacidad del modelo con eficiencia mejorada de parámetros
Mecanismo de atención mejorado con mejor escalabilidad
Embeddings posicionales más sofisticados para secuencias más largas
Esquemas mejorados de normalización de capas e inicialización

Esta implementación muestra las mejoras arquitectónicas de GPT-2 que permitieron un mejor rendimiento en una amplia gama de tareas de lenguaje mientras mantiene la naturaleza autorregresiva central del modelo.

GPT-3 (2020):

Lanzado en 2020, GPT-3 representó un salto masivo en las capacidades de los modelos de lenguaje con sus sin precedentes 175 mil millones de parámetros - un aumento de 100 veces sobre su predecesor. El modelo demostró habilidades notables en tres áreas clave:

Generación de Texto: Produciendo texto similar al humano con coherencia excepcional y consciencia contextual a través de varios formatos incluyendo ensayos, historias, código e incluso poesía.
Aprendizaje con Pocos Ejemplos: A diferencia de modelos anteriores, GPT-3 podía realizar nuevas tareas simplemente mostrándole algunos ejemplos en lenguaje natural, sin ningún ajuste fino o entrenamiento adicional. Esta capacidad le permitía adaptarse a nuevos contextos sobre la marcha.
Multitarea: El modelo mostró competencia en el manejo de diversas tareas como traducción, respuesta a preguntas y aritmética, todo dentro de una única arquitectura de modelo. Esta versatilidad eliminó la necesidad de ajuste fino específico por tarea, convirtiéndolo en un modelo de lenguaje verdaderamente de propósito general.

Ejemplo de Código: Implementación de GPT-3

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class GPT3Config:
    def __init__(self):
        self.vocab_size = 50400
        self.n_positions = 2048
        self.n_embd = 12288
        self.n_layer = 96
        self.n_head = 96
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5
        self.rotary_dim = 64  # For rotary position embeddings

class RotaryEmbedding(nn.Module):
    def __init__(self, dim, max_position_embeddings=2048):
        super().__init__()
        self.dim = dim
        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)

    def forward(self, positions):
        sincos = torch.einsum('i,j->ij', positions.float(), self.inv_freq)
        sin, cos = torch.sin(sincos), torch.cos(sincos)
        return torch.cat((sin, cos), dim=-1)

class GPT3Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.query = nn.Linear(config.n_embd, config.n_embd)
        self.key = nn.Linear(config.n_embd, config.n_embd)
        self.value = nn.Linear(config.n_embd, config.n_embd)
        self.out_proj = nn.Linear(config.n_embd, config.n_embd)
        
        self.rotary_emb = RotaryEmbedding(config.rotary_dim)
        self.dropout = nn.Dropout(config.dropout)
        
    def apply_rotary_pos_emb(self, x, positions):
        rot_emb = self.rotary_emb(positions)
        x_rot = x[:, :, :self.rotary_dim]
        x_pass = x[:, :, self.rotary_dim:]
        x_rot = torch.cat((-x_rot[..., 1::2], x_rot[..., ::2]), dim=-1)
        return torch.cat((x_rot * rot_emb, x_pass), dim=-1)

    def forward(self, hidden_states, attention_mask=None, position_ids=None):
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        
        if position_ids is not None:
            query = self.apply_rotary_pos_emb(query, position_ids)
            key = self.apply_rotary_pos_emb(key, position_ids)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
            
        attention_probs = F.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.n_embd)
        
        return self.out_proj(context)

Desglose del Código:

Configuración (GPT3Config):
- Parámetros del modelo significativamente más grandes en comparación con GPT-2
- Ventana de contexto extendida a 2048 tokens
- Dimensión de embedding masiva de 12,288
- 96 cabezales y capas de atención para mayor capacidad
Embeddings Posicionales Rotatorios (RotaryEmbedding):
- Implementa RoPE (Embeddings Posicionales Rotatorios)
- Proporciona mejor información posicional que los embeddings absolutos
- Permite un mejor manejo de secuencias más largas
Mecanismo de Atención Mejorado (GPT3Attention):
- Matrices de proyección separadas para consulta, clave y valor
- Implementa integración de embeddings posicionales rotatorios
- Enmascaramiento de atención avanzado y dropout para regularización

Mejoras Clave sobre GPT-2:

Capacidad del modelo dramáticamente aumentada (175B parámetros)
Codificación posicional avanzada con embeddings rotatorios
Mecanismo de atención mejorado con mejores propiedades de escalado
Estabilidad numérica mejorada mediante inicialización y normalización cuidadosa

Esta implementación demuestra la sofisticación arquitectónica de GPT-3, mostrando los componentes clave que permiten su notable rendimiento en una amplia gama de tareas de lenguaje.

GPT-4 (2023)

GPT-4, lanzado en marzo de 2023, representa la cuarta iteración principal de la serie de modelos de lenguaje Transformer Pre-entrenado Generativo de OpenAI. Este modelo revolucionario marca un avance significativo en las capacidades de inteligencia artificial, superando sustancialmente a su predecesor GPT-3 en numerosos puntos de referencia y aplicaciones del mundo real. El modelo introduce varias mejoras revolucionarias que han redefinido lo que es posible en el procesamiento del lenguaje natural:

Excelencia en Procesamiento del Lenguaje Natural:

Comprensión y generación de lenguaje natural con matices y precisión sin precedentes
- Comprensión avanzada del contexto y sutilezas en la comunicación humana
- Capacidad mejorada para mantener la consistencia en contenido de formato largo
- Mejor comprensión de referencias culturales y expresiones idiomáticas

Capacidades Multimodales:

Procesamiento y análisis de imágenes junto con texto (capacidades multimodales)
- Puede comprender y describir información visual compleja
- Capacidad para analizar gráficos, diagramas y dibujos técnicos
- Puede generar respuestas detalladas basadas en entradas visuales

Capacidades Cognitivas Mejoradas:

Capacidades mejoradas de razonamiento y resolución de problemas
- Habilidades avanzadas de análisis lógico y deducción
- Mejor manejo de problemas matemáticos complejos
- Capacidad mejorada para desglosar problemas complejos en pasos manejables

Fiabilidad y Precisión:

Precisión factual mejorada y alucinaciones reducidas
- Recuperación de información más consistente y confiable
- Mejores capacidades de verificación de fuentes y comprobación de hechos
- Tendencia reducida a generar información falsa o engañosa

Excelencia Académica y Profesional:

Mejor rendimiento en pruebas académicas y profesionales
- Experiencia demostrada en varios campos profesionales
- Comprensión mejorada de contenido técnico y especializado
- Capacidad mejorada para proporcionar perspectivas a nivel experto

Seguimiento de Instrucciones:

Mayor capacidad para seguir instrucciones complejas
- Mejor comprensión de tareas de múltiples pasos
- Mejor adherencia a pautas y restricciones específicas
- Capacidad mejorada para mantener el contexto en interacciones prolongadas

Si bien OpenAI ha mantenido en secreto las especificaciones técnicas completas de GPT-4, incluyendo su cantidad de parámetros, el modelo demuestra mejoras notables tanto en conocimiento general como en experiencia en dominios especializados en comparación con versiones anteriores. Estas mejoras son evidentes no solo en pruebas de referencia sino en aplicaciones prácticas en varios campos, desde desarrollo de software hasta diagnóstico médico, análisis legal y escritura creativa.

Ejemplo de Código: Implementación de GPT-4

import torch
import torch.nn as nn
import math
from typing import Optional, Tuple

class GPT4Config:
    def __init__(self):
        self.vocab_size = 100000
        self.hidden_size = 12288
        self.num_hidden_layers = 128
        self.num_attention_heads = 96
        self.intermediate_size = 49152
        self.max_position_embeddings = 8192
        self.layer_norm_eps = 1e-5
        self.dropout = 0.1

class MultiModalEmbedding(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.text_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        self.image_projection = nn.Linear(1024, config.hidden_size)  # Assuming image features of size 1024
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.modality_type_embeddings = nn.Embedding(2, config.hidden_size)  # 0 for text, 1 for image
        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.dropout)

    def forward(self, input_ids=None, image_features=None, position_ids=None):
        if input_ids is not None:
            inputs_embeds = self.text_embeddings(input_ids)
            modality_type = torch.zeros_like(position_ids)
        else:
            inputs_embeds = self.image_projection(image_features)
            modality_type = torch.ones_like(position_ids)
        
        position_embeddings = self.position_embeddings(position_ids)
        modality_embeddings = self.modality_type_embeddings(modality_type)
        
        embeddings = inputs_embeds + position_embeddings + modality_embeddings
        embeddings = self.layernorm(embeddings)
        return self.dropout(embeddings)

class GPT4Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.num_attention_heads = config.num_attention_heads
        self.hidden_size = config.hidden_size
        self.head_dim = config.hidden_size // config.num_attention_heads
        
        self.query = nn.Linear(config.hidden_size, config.hidden_size)
        self.key = nn.Linear(config.hidden_size, config.hidden_size)
        self.value = nn.Linear(config.hidden_size, config.hidden_size)
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        
        self.dropout = nn.Dropout(config.dropout)
        self.scale = math.sqrt(self.head_dim)

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        cache: Optional[Tuple[torch.Tensor]] = None
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor]]]:
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        
        if cache is not None:
            past_key, past_value = cache
            key = torch.cat([past_key, key], dim=2)
            value = torch.cat([past_value, value], dim=2)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / self.scale
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
        
        attention_probs = nn.functional.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.hidden_size)
        
        output = self.dense(context)
        
        return output, (key, value) if cache is not None else None

Desglose del Código:

Configuración (GPT4Config):
- Vocabulario expandido a 100,000 tokens
- Tamaño oculto aumentado a 12,288
- 128 capas transformer para procesamiento más profundo
- Ventana de contexto extendida a 8,192 tokens
Embedding Multimodal:
- Maneja entradas de texto e imagen
- Implementa embeddings posicionales sofisticados
- Incluye embeddings específicos por modalidad
- Utiliza normalización de capas para entrenamiento estable
Mecanismo de Atención Mejorado (GPT4Attention):
- Implementa atención de producto punto escalado con eficiencia mejorada
- Admite estados clave/valor en caché para inferencia más rápida
- Incluye enmascaramiento de atención para flujo de información controlado
- Operaciones matriciales optimizadas para mejor rendimiento

Mejoras Clave sobre GPT-3:

Soporte nativo para múltiples modalidades (texto e imágenes)
Mecanismo de caché más sofisticado para inferencia eficiente
Patrones de atención mejorados para mejores dependencias de largo alcance
Embeddings posicionales mejorados para manejo de secuencias más largas

Esta implementación muestra la arquitectura avanzada de GPT-4, particularmente sus capacidades multimodales y mecanismos de atención mejorados que permiten un mejor rendimiento en diversas tareas.

5.2.3 Cómo Funciona GPT

Fundamento Matemático

GPT calcula la probabilidad de un token x_t dados sus tokens precedentes x_1, x_2, \dots, x_{t-1} como:

P(xt∣x1,x2,…,xt−1)=softmax(Wo⋅Ht)

Donde:

H_t es el estado oculto en la posición t, calculado usando el mecanismo de atención. Este estado oculto representa la comprensión del modelo del contexto del token basado en todos los tokens anteriores en la secuencia. Se calcula a través de múltiples capas de auto-atención y redes neuronales feed-forward.
W_o es la matriz de pesos de salida aprendida que transforma el estado oculto en logits sobre el vocabulario. Esta matriz es crucial ya que mapea las representaciones internas del modelo a probabilidades reales de palabras.

El mecanismo de auto-atención calcula las relaciones entre tokens solo en dirección hacia adelante, permitiendo que el modelo prediga eficientemente el siguiente token. Esto se logra mediante un patrón de atención enmascarado donde cada token solo puede atender a sus tokens anteriores, manteniendo la propiedad autorregresiva del modelo. La función softmax luego convierte estos logits sin procesar en una distribución de probabilidad sobre todo el vocabulario, permitiendo que el modelo haga predicciones informadas sobre el siguiente token en la secuencia.

5.2.4 Comparación: GPT vs. BERT

Característica	GPT	BERT
Contexto	Unidireccional (procesa el texto solo de izquierda a derecha, similar a cómo los humanos leen y escriben). Esto permite una generación eficiente de texto pero limita la comprensión del contexto bidireccional.	Bidireccional (procesa el texto en ambas direcciones simultáneamente). Esto permite una mejor comprensión del contexto y las relaciones entre palabras en una oración.
Arquitectura	Transformer de solo decodificador que se especializa en generar secuencias de texto. Utiliza auto-atención enmascarada para evitar ver tokens futuros durante el entrenamiento y la inferencia.	Transformer de solo codificador que se centra en comprender el texto de entrada. Utiliza auto-atención completa para analizar las relaciones entre todas las palabras en una secuencia.
Caso de Uso Principal	Tareas de generación de texto como escritura, traducción y creación de contenido creativo. Sobresale en producir continuaciones de texto coherentes y contextualmente relevantes.	Tareas de comprensión del lenguaje como clasificación, reconocimiento de entidades nombradas y respuesta a preguntas. Más adecuado para analizar y extraer significado de textos existentes.
Objetivo de Entrenamiento	Predicción del siguiente token: aprende a predecir la siguiente palabra en una secuencia dado las palabras anteriores. Este enfoque autorregresivo permite la generación natural de texto.	Predicción de tokens enmascarados: enmascara aleatoriamente palabras en el texto de entrada y aprende a predecirlas usando tanto el contexto izquierdo como el derecho. También realiza predicción de la siguiente oración.

Ejemplo Práctico: Usando GPT para Generación de Texto

Así es cómo usar GPT-2 mediante la biblioteca Transformers de Hugging Face para generar texto coherente.

Ejemplo de Código: Generación de Texto con GPT-2

from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch
import time

def setup_model(model_name="gpt2"):
    """Initialize the model and tokenizer"""
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name)
    return tokenizer, model

def generate_text(prompt, model, tokenizer, 
                 max_length=100,
                 num_beams=5,
                 temperature=0.7,
                 top_k=50,
                 top_p=0.95,
                 no_repeat_ngram_size=2,
                 num_return_sequences=3):
    """Generate text with various parameters for control"""
    
    # Encode the input prompt
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids
    
    # Generate with specified parameters
    start_time = time.time()
    
    outputs = model.generate(
        input_ids,
        max_length=max_length,
        num_beams=num_beams,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        no_repeat_ngram_size=no_repeat_ngram_size,
        num_return_sequences=num_return_sequences,
        pad_token_id=tokenizer.eos_token_id,
        early_stopping=True
    )
    
    generation_time = time.time() - start_time
    
    # Decode and return the generated sequences
    generated_texts = [tokenizer.decode(output, skip_special_tokens=True) 
                      for output in outputs]
    
    return generated_texts, generation_time

def main():
    # Set up model and tokenizer
    tokenizer, model = setup_model()
    
    # Example prompts
    prompts = [
        "The future of artificial intelligence is",
        "In the next decade, technology will",
        "The most important scientific discovery was"
    ]
    
    # Generate text for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        print("-" * 50)
        
        generated_texts, generation_time = generate_text(
            prompt=prompt,
            model=model,
            tokenizer=tokenizer
        )
        
        print(f"Generation Time: {generation_time:.2f} seconds")
        print("\nGenerated Sequences:")
        for i, text in enumerate(generated_texts, 1):
            print(f"\n{i}. {text}\n")

if __name__ == "__main__":
    main()

Desglose del Código:

Configuración e Importaciones:
- Utiliza la biblioteca transformers para acceder al modelo GPT-2
- Incluye torch para operaciones con tensores
- Módulo time para monitoreo de rendimiento
Funciones Principales:
- setup_model(): Inicializa el modelo y el tokenizador
- generate_text(): Función principal de generación con múltiples parámetros
- main(): Orquesta el proceso de generación con múltiples prompts
Parámetros de Generación:
- max_length: Longitud máxima del texto generado
- num_beams: Número de haces para la búsqueda por haces
- temperature: Controla la aleatoriedad (mayor = más aleatorio)
- top_k: Limita el vocabulario a los K tokens principales
- top_p: Parámetro de muestreo núcleo
- no_repeat_ngram_size: Previene la repetición de n-gramas
Características:
- Manejo de múltiples prompts
- Seguimiento del tiempo de generación
- Generación de múltiples secuencias por prompt
- Parámetros de generación configurables

5.2.5 Aplicaciones de GPT

Generación de Texto

Genera contenido creativo como historias, ensayos y poesía. La comprensión avanzada del lenguaje y la conciencia contextual de GPT lo convierten en una herramienta poderosa para tareas de escritura creativa. La arquitectura neural del modelo procesa patrones de lenguaje en múltiples niveles, desde gramática básica hasta estructuras narrativas complejas, permitiéndole entender y generar contenido sofisticado mientras mantiene una coherencia notable.

Las capacidades creativas del modelo son extensas y matizadas:

Para historias, puede desarrollar tramas complejas con múltiples líneas argumentales, crear personajes multidimensionales con personalidades distintivas, y tejer arcos narrativos intrincados que mantienen a los lectores enganchados de principio a fin.
Para ensayos, puede construir argumentos bien razonados respaldados por ejemplos relevantes, mantener un flujo lógico entre párrafos, y adaptar su estilo de escritura para ajustarse a tonos académicos, profesionales o casuales según sea necesario.
Para poesía, puede elaborar versos que demuestran comprensión de varias formas poéticas (sonetos, haikus, verso libre), incorporar dispositivos literarios sofisticados (metáforas, aliteración, asonancia), y mantener esquemas consistentes de métrica y rima cuando se requiere.

Esta versatilidad en la generación creativa proviene de varios factores clave:

Su entrenamiento en diversas fuentes de texto, incluyendo literatura, artículos académicos y contenido en línea
Su capacidad para capturar patrones sutiles en la estructura del lenguaje a través de sus mecanismos de atención multicapa
Su comprensión contextual que le permite mantener la consistencia temática a lo largo de pasajes extensos
Su capacidad para adaptar el estilo de escritura según los prompts o ejemplos dados

Ejemplo de Código: Generación de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class GPT4TextGenerator:
    def __init__(self, model_name: str = "gpt4-base"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_with_streaming(
        self,
        prompt: str,
        max_length: int = 200,
        temperature: float = 0.8,
        top_p: float = 0.9,
        presence_penalty: float = 0.0,
        frequency_penalty: float = 0.0,
    ) -> str:
        # Encode the input prompt
        inputs = self.tokenizer.encode(prompt, return_tensors="pt").to(self.device)
        
        # Track generated tokens for penalties
        generated_tokens = []
        current_length = 0
        
        while current_length < max_length:
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(inputs)
                next_token_logits = outputs.logits[:, -1, :]
                
                # Apply temperature scaling
                next_token_logits = next_token_logits / temperature
                
                # Apply penalties
                if len(generated_tokens) > 0:
                    for token_id in set(generated_tokens):
                        # Presence penalty
                        next_token_logits[0, token_id] -= presence_penalty
                        # Frequency penalty
                        freq = generated_tokens.count(token_id)
                        next_token_logits[0, token_id] -= frequency_penalty * freq
                
                # Apply nucleus (top-p) sampling
                sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
                cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0
                indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
                next_token_logits[indices_to_remove] = float('-inf')
                
                # Sample next token
                probs = torch.softmax(next_token_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                
                # Break if we generate an EOS token
                if next_token.item() == self.tokenizer.eos_token_id:
                    break
                
                # Append the generated token
                generated_tokens.append(next_token.item())
                inputs = torch.cat([inputs, next_token.unsqueeze(0)], dim=1)
                current_length += 1
                
                # Yield intermediate results
                current_text = self.tokenizer.decode(generated_tokens)
                yield current_text

    def generate(self, prompt: str, **kwargs) -> str:
        """Non-streaming version of text generation"""
        return list(self.generate_with_streaming(prompt, **kwargs))[-1]

# Example usage
def main():
    generator = GPT4TextGenerator()
    
    prompts = [
        "Explain the concept of quantum computing in simple terms:",
        "Write a short story about a time traveler:",
        "Describe the process of photosynthesis:"
    ]
    
    for prompt in prompts:
        print(f"\nPrompt: {prompt}\n")
        print("Generating response...")
        
        # Stream the generation
        for partial_response in generator.generate_with_streaming(
            prompt,
            max_length=150,
            temperature=0.7,
            top_p=0.9,
            presence_penalty=0.2,
            frequency_penalty=0.2
        ):
            print(partial_response, end="\r")
        print("\n" + "="*50)

if __name__ == "__main__":
    main()

Desglose del Código:

Estructura de Clase:
- Implementa una clase GPT4TextGenerator para la generación organizada de texto
- Utiliza AutoTokenizer y AutoModelForCausalLM para la carga del modelo
- Compatible con inferencia en GPU y CPU
Características Avanzadas de Generación:
- Generación en streaming con declaraciones yield
- Aleatoriedad controlada por temperatura
- Muestreo de núcleo (top-p) para mejor calidad
- Penalizaciones de presencia y frecuencia para reducir la repetición
Parámetros Clave:
- max_length: Controla la longitud máxima del texto generado
- temperature: Ajusta la aleatoriedad en la selección de tokens
- top_p: Controla el umbral de muestreo de núcleo
- presence_penalty: Reduce la repetición de tokens
- frequency_penalty: Penaliza el uso frecuente de tokens
Detalles de Implementación:
- Generación eficiente de tokens con torch.no_grad()
- Aplicación dinámica de penalizaciones para mejor calidad de texto
- Transmisión en tiempo real del texto generado
- Manejo flexible de prompts con ejemplos de uso

Sistemas de Diálogo

Potencian agentes conversacionales y chatbots con respuestas coherentes y contextualmente relevantes que pueden participar en diálogos significativos. Estos sistemas sofisticados aprovechan las capacidades avanzadas de comprensión del lenguaje de GPT, que se basan en mecanismos complejos de atención y vastos datos de entrenamiento, para crear conversaciones naturales y dinámicas. Aquí hay un análisis detallado de sus capacidades:

Procesa entradas de lenguaje natural mediante la comprensión de la intención del usuario, el contexto y los matices en la comunicación a través de:
- Análisis semántico de mensajes del usuario para captar el significado subyacente
- Reconocimiento de subtextos emocionales y sentimientos
- Interpretación de coloquialismos y expresiones idiomáticas
Genera respuestas similares a las humanas que mantienen el flujo de conversación y el contexto a través de múltiples intercambios mediante:
- Seguimiento del historial de conversación para mantener un diálogo coherente
- Uso de referencias apropiadas a mensajes anteriores
- Aseguramiento de la progresión lógica de ideas y temas
Maneja diversos escenarios de conversación, desde servicio al cliente hasta tutoría educativa, a través de:
- Bases de conocimiento especializadas para diferentes dominios
- Estrategias de respuesta adaptativas basadas en el tipo de conversación
- Integración con marcos de trabajo orientados a tareas específicas
Adapta el tono y estilo según el contexto de la conversación y las preferencias del usuario mediante:
- Reconocimiento de situaciones formales vs informales
- Ajuste de la complejidad técnica según la experiencia del usuario
- Correspondencia de resonancia emocional cuando es apropiado

La sofisticada capacidad del modelo para mantener el contexto durante una conversación permite interacciones notablemente naturales y atractivas. Esto se logra a través de sus mecanismos de atención multicapa que pueden rastrear y hacer referencia a intercambios previos mientras genera respuestas. Además, su extenso entrenamiento en diversos conjuntos de datos le ayuda a comprender y responder apropiadamente a una amplia gama de temas y tipos de consultas, convirtiéndolo en una herramienta versátil para varias aplicaciones conversacionales.

Ejemplo de Código: Sistemas de Diálogo con GPT-2

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict
from dataclasses import dataclass
from datetime import datetime

@dataclass
class DialogueContext:
    conversation_history: List[Dict[str, str]]
    max_history: int = 5
    system_prompt: str = "You are a helpful AI assistant."

class DialogueSystem:
    def __init__(self, model_name: str = "gpt2"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def format_dialogue(self, context: DialogueContext) -> str:
        formatted = context.system_prompt + "\n\n"
        for message in context.conversation_history[-context.max_history:]:
            role = message["role"]
            content = message["content"]
            formatted += f"{role}: {content}\n"
        return formatted
    
    def generate_response(
        self,
        context: DialogueContext,
        max_length: int = 100,
        temperature: float = 0.7,
        top_p: float = 0.9
    ) -> str:
        # Format the conversation history
        dialogue_text = self.format_dialogue(context)
        dialogue_text += "Assistant: "
        
        # Encode and generate
        inputs = self.tokenizer.encode(dialogue_text, return_tensors="pt").to(self.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=inputs.shape[1] + max_length,
                temperature=temperature,
                top_p=top_p,
                pad_token_id=self.tokenizer.eos_token_id,
                num_return_sequences=1
            )
        
        response = self.tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)
        return response.strip()

def main():
    # Initialize the dialogue system
    dialogue_system = DialogueSystem()
    
    # Create a conversation context
    context = DialogueContext(
        conversation_history=[],
        max_history=5,
        system_prompt="You are a helpful AI assistant specialized in technical support."
    )
    
    # Example conversation
    user_messages = [
        "I'm having trouble with my laptop. It's running very slowly.",
        "Yes, it's a Windows laptop and it's about 2 years old.",
        "I haven't cleaned up any files recently.",
    ]
    
    for message in user_messages:
        # Add user message to history
        context.conversation_history.append({
            "role": "User",
            "content": message,
            "timestamp": datetime.now().isoformat()
        })
        
        # Generate and add assistant response
        response = dialogue_system.generate_response(context)
        context.conversation_history.append({
            "role": "Assistant",
            "content": response,
            "timestamp": datetime.now().isoformat()
        })
        
        # Print the exchange
        print(f"\nUser: {message}")
        print(f"Assistant: {response}")

if __name__ == "__main__":
    main()

Desglose del Código:

Componentes Principales:
- Clase DialogueContext para gestionar el estado de la conversación
- Clase DialogueSystem para manejar las interacciones del modelo
- Gestión eficiente del historial de conversación con límite max_history
Características Principales:
- Mantiene el contexto de la conversación a través de múltiples intercambios
- Implementa muestreo por temperatura y top-p para la generación de respuestas
- Incluye seguimiento de marca temporal para cada mensaje
- Admite prompts del sistema para la definición de roles
Detalles de Implementación:
- Utiliza la biblioteca transformers para el manejo del modelo
- Implementa generación eficiente de respuestas con torch.no_grad()
- Formatea el historial de diálogo para respuestas contextualizadas
- Maneja mensajes tanto del usuario como del asistente en un formato estructurado
Características Avanzadas:
- Longitud configurable del historial de conversación
- Personalización flexible del prompt del sistema
- Almacenamiento estructurado de mensajes con marcas temporales
- Soporte para aceleración GPU cuando está disponible

Resumen

Genera resúmenes concisos de artículos o documentos largos mientras preserva la información clave y las ideas principales. Esta potente capacidad transforma contenido extenso en ideas claras y procesables mediante el procesamiento avanzado del lenguaje natural. Esta capacidad permite:

Procesamiento eficiente de información mediante la condensación de textos extensos en resúmenes digeribles:
- Reduce el tiempo de lectura hasta en un 75% mientras mantiene la integridad del mensaje principal
- Identifica y resalta automáticamente los puntos más significativos
- Utiliza algoritmos avanzados para determinar la relevancia y prioridad de la información
Extracción de puntos cruciales manteniendo el contexto y significado:
- Emplea análisis semántico sofisticado para entender las relaciones entre ideas
- Preserva el contexto crítico que da significado a la información extraída
- Asegura el flujo lógico y la coherencia en el contenido resumido
Múltiples estilos de resumen:
- Resúmenes extractivos que extraen oraciones clave directamente de la fuente:
  - Mantiene la voz original del autor y la redacción precisa
  - Ideal para documentos técnicos o legales donde la fraseología exacta es crucial
- Resúmenes abstractivos que reformulan el contenido con nuevas palabras:
  - Crea narrativas más naturales y fluidas
  - Maneja mejor la redundancia y la síntesis de información
- Resúmenes de longitud controlada adaptables a diferentes necesidades:
  - Abarca desde breves resúmenes ejecutivos hasta descripciones detalladas
  - Ratios de compresión personalizables según la longitud objetivo

Ejemplo de Código: Resumen de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict, Optional

class TextSummarizer:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def generate_summary(
        self,
        text: str,
        max_length: int = 150,
        min_length: Optional[int] = None,
        temperature: float = 0.7,
        num_beams: int = 4,
    ) -> Dict[str, str]:
        # Prepare the prompt
        prompt = f"Summarize the following text:\n\n{text}\n\nSummary:"
        
        # Encode the input text
        inputs = self.tokenizer.encode(
            prompt,
            return_tensors="pt",
            max_length=1024,
            truncation=True
        ).to(self.device)
        
        # Generate summary
        with torch.no_grad():
            summary_ids = self.model.generate(
                inputs,
                max_length=max_length,
                min_length=min_length or 50,
                num_beams=num_beams,
                temperature=temperature,
                no_repeat_ngram_size=3,
                length_penalty=2.0,
                early_stopping=True
            )
        
        # Decode and format the summary
        summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)
        
        # Extract the summary part
        summary_text = summary.split("Summary:")[-1].strip()
        
        return {
            "original_text": text,
            "summary": summary_text,
            "compression_ratio": len(summary_text.split()) / len(text.split())
        }

def main():
    # Initialize summarizer
    summarizer = TextSummarizer()
    
    # Example text to summarize
    sample_text = """
    Artificial intelligence has transformed numerous industries, from healthcare 
    to transportation. Machine learning algorithms now power everything from 
    recommendation systems to autonomous vehicles. Deep learning, a subset of AI, 
    has particularly excelled in pattern recognition tasks, enabling breakthroughs 
    in image and speech recognition. As these technologies continue to evolve, 
    they raise important questions about ethics, privacy, and the future of work.
    """
    
    # Generate summaries with different parameters
    summaries = []
    for temp in [0.3, 0.7]:
        for length in [100, 150]:
            result = summarizer.generate_summary(
                sample_text,
                max_length=length,
                temperature=temp
            )
            summaries.append(result)
    
    # Print results
    for i, summary in enumerate(summaries, 1):
        print(f"\nSummary {i}:")
        print(f"Text: {summary['summary']}")
        print(f"Compression Ratio: {summary['compression_ratio']:.2f}")

if __name__ == "__main__":
    main()

Como puedes ver, este código implementa un sistema de resumen de texto usando GPT-4. Aquí hay un desglose completo de sus componentes principales:

Clase TextSummarizer:

Se inicializa con un modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, sino recurre a CPU
Utiliza la biblioteca transformers para el manejo del modelo

Método generate_summary:

Acepta parámetros de entrada:
- text: El contenido a resumir
- max_length: Longitud máxima del resumen (predeterminado 150)
- min_length: Longitud mínima del resumen (opcional)
- temperature: Controla la aleatoriedad (predeterminado 0.7)
- num_beams: Número de haces para la búsqueda por haces (predeterminado 4)

Características Principales:

Utiliza búsqueda por haces para resúmenes de mejor calidad
Implementa no_repeat_ngram para prevenir repeticiones
Incluye penalización por longitud y parada temprana
Calcula la relación de compresión entre el texto original y el resumido

Función Principal:

Demuestra el uso con un texto de ejemplo relacionado con IA
Genera múltiples resúmenes con diferentes parámetros:
- Prueba dos valores de temperatura (0.3 y 0.7)
- Prueba dos configuraciones de longitud (100 y 150)

El código exhibe características avanzadas como la aleatoriedad controlada por temperatura y relaciones de compresión personalizables, mientras mantiene la capacidad de preservar el contexto crítico y el significado en el resultado resumido.

Esta implementación es particularmente útil para generar resúmenes extractivos que mantienen la voz original del autor, mientras que también puede crear narrativas más naturales y fluidas a través de la resumización abstractiva.

Ejemplo de Salida

Summary 1:
Text: Artificial intelligence has revolutionized industries, with machine learning driving innovation in healthcare and transportation.
Compression Ratio: 0.30

Summary 2:
Text: AI advancements in machine learning and deep learning are enabling breakthroughs while raising ethical concerns.
Compression Ratio: 0.27

Generación de Código

Asiste a los desarrolladores en sus tareas de programación mediante sofisticadas capacidades de generación y completación de código impulsadas por reconocimiento avanzado de patrones y comprensión profunda de conceptos de programación. Esta potente funcionalidad basada en IA revoluciona el flujo de trabajo de desarrollo a través de varias características clave:

Completación Inteligente de Código con Conciencia Contextual Avanzada
- Analiza el contexto del código circundante para sugerir las llamadas a funciones y nombres de variables más relevantes basados en patrones existentes
- Aprende de las convenciones de codificación específicas del proyecto para mantener un estilo consistente
- Predice y completa patrones de programación complejos considerando el contexto completo del código base
- Adapta las sugerencias según las bibliotecas importadas y las convenciones específicas del framework
Generación Sofisticada de Código Boilerplate
- Crea automáticamente plantillas de implementación estandarizadas siguiendo las mejores prácticas de la industria
- Genera estructuras completas de clases, interfaces y patrones de diseño
- Maneja tareas repetitivas de codificación eficientemente mientras mantiene la consistencia
- Soporta múltiples lenguajes de programación y frameworks con la sintaxis apropiada
Detección Integral de Errores y Mejora de la Calidad del Código
- Identifica proactivamente problemas potenciales incluyendo errores de ejecución, fugas de memoria y vulnerabilidades de seguridad
- Sugiere optimizaciones y mejoras basadas en estándares de codificación establecidos
- Proporciona explicaciones detalladas para las correcciones propuestas para ayudar a los desarrolladores a aprender
- Analiza la complejidad del código y sugiere oportunidades de refactorización para mejorar la mantenibilidad

Ejemplo de Código: Generación de Código con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class CodeGenerator:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
    
    def generate_code(
        self,
        prompt: str,
        max_length: int = 512,
        temperature: float = 0.7,
        top_p: float = 0.95,
        num_return_sequences: int = 1,
    ) -> List[str]:
        # Prepare the prompt with coding context
        formatted_prompt = f"Generate Python code for: {prompt}\n\nCode:"
        
        # Encode the prompt
        inputs = self.tokenizer.encode(
            formatted_prompt,
            return_tensors="pt",
            max_length=128,
            truncation=True
        ).to(self.device)
        
        # Generate code sequences
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=top_p,
                num_return_sequences=num_return_sequences,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                early_stopping=True
            )
        
        # Decode and format generated code
        generated_code = []
        for output in outputs:
            code = self.tokenizer.decode(output, skip_special_tokens=True)
            # Extract only the generated code part
            code = code.split("Code:")[-1].strip()
            generated_code.append(code)
            
        return generated_code
    
    def improve_code(
        self,
        code: str,
        improvement_type: str = "optimization"
    ) -> Dict[str, str]:
        # Prepare prompt for code improvement
        prompt = f"Improve the following code ({improvement_type}):\n{code}\n\nImproved code:"
        
        # Generate improved version
        improved = self.generate_code(prompt, temperature=0.5)[0]
        
        return {
            "original": code,
            "improved": improved,
            "improvement_type": improvement_type
        }

def main():
    # Initialize generator
    generator = CodeGenerator()
    
    # Example prompts
    prompts = [
        "Create a function to calculate fibonacci numbers using dynamic programming",
        "Implement a binary search tree class with insert and search methods"
    ]
    
    # Generate code for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        generated_codes = generator.generate_code(
            prompt,
            temperature=0.7,
            num_return_sequences=2
        )
        
        for i, code in enumerate(generated_codes, 1):
            print(f"\nGenerated Code {i}:")
            print(code)
        
        # Demonstrate code improvement
        if generated_codes:
            improved = generator.improve_code(
                generated_codes[0],
                improvement_type="optimization"
            )
            print("\nOptimized Version:")
            print(improved["improved"])

if __name__ == "__main__":
    main()

El código implementa una clase CodeGenerator que utiliza GPT-4 para la generación y mejora de código. Estos son los componentes principales:

Inicialización de Clase

Se inicializa con el modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, recurriendo a CPU si es necesario

Métodos Principales

generate_code():
- Recibe parámetros como prompt, longitud máxima, temperatura y número de secuencias
- Da formato al prompt para la generación de código
- Utiliza el modelo para generar secuencias de código
- Devuelve múltiples variaciones de código basadas en los parámetros de entrada
improve_code():
- Recibe código existente y un tipo de mejora (por ejemplo, "optimización")
- Genera una versión mejorada del código de entrada
- Devuelve tanto la versión original como la mejorada

Demostración de la Función Principal

Muestra el uso práctico con ejemplos de prompts:
- Implementación de secuencia Fibonacci
- Implementación de árbol binario de búsqueda
Genera múltiples versiones de código para cada prompt
Demuestra la funcionalidad de mejora de código

Características Principales

Control de temperatura para la creatividad en la generación
Soporte para múltiples secuencias de retorno
Capacidades de optimización de código
Manejo de errores integrado y aceleración por GPU

Traducción y Parafraseo

Realiza traducción de idiomas y reformula texto con capacidades sofisticadas de procesamiento de lenguaje natural que aprovechan modelos transformer de última generación. La funcionalidad de traducción va más allá de la simple conversión palabra por palabra, permitiendo traducciones matizadas y contextualmente conscientes entre múltiples idiomas. Este sistema sobresale en preservar no solo el significado literal, sino también los matices culturales, expresiones idiomáticas y sutiles señales contextuales. Ya sea que maneje documentos comerciales formales o conversaciones casuales, el motor de traducción adapta su salida para mantener el registro y estilo de lenguaje apropiados.

Las capacidades avanzadas de parafraseo ofrecen una flexibilidad sin precedentes en la transformación de contenido. Los usuarios pueden ajustar dinámicamente el contenido a través de múltiples dimensiones:

Variaciones de estilo: Transformar texto entre formas formales, casuales, técnicas o simplificadas
- Adaptar documentos académicos para el público general
- Convertir documentación técnica en guías amigables para el usuario
Ajustes de tono: Modificar la resonancia emocional del contenido
- Cambiar entre tonos profesionales, amigables o neutrales
- Adaptar contenido de marketing para diferentes audiencias
Optimización de longitud: Expandir o condensar contenido mientras se preserva la información clave
- Crear explicaciones detalladas a partir de puntos concisos
- Resumir documentos extensos en resúmenes breves

Estas capacidades sofisticadas sirven para diversas aplicaciones:

Localización de contenido global para mercados internacionales
Asistencia en escritura académica para trabajos de investigación y tesis
Comunicación intercultural en organizaciones multinacionales
Adaptación de contenido para diferentes plataformas y audiencias
Desarrollo de material educativo para diferentes niveles de comprensión

Ejemplo de Código: Traducción y Parafraseo con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict

class TextProcessor:
    def __init__(self, model_name: str = "openai/gpt-4"):
        """
        Initializes the model and tokenizer for GPT-4.

        Parameters:
            model_name (str): The name of the GPT-4 model.
        """
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_response(self, prompt: str, max_length: int = 512, temperature: float = 0.7) -> str:
        """
        Generates a response using GPT-4 for a given prompt.

        Parameters:
            prompt (str): The input prompt for the model.
            max_length (int): Maximum length of the generated response.
            temperature (float): Sampling temperature for diversity in output.

        Returns:
            str: The generated response.
        """
        inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=1024, truncation=True).to(self.device)
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=0.95,
                pad_token_id=self.tokenizer.eos_token_id,
                early_stopping=True
            )
        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

    def translate_text(self, text: str, target_language: str) -> Dict[str, str]:
        """
        Translates text into the specified language.

        Parameters:
            text (str): The text to be translated.
            target_language (str): The language to translate the text into (e.g., "French", "Spanish").

        Returns:
            Dict[str, str]: A dictionary containing the original text and the translated text.
        """
        prompt = f"Translate the following text into {target_language}:\n\n{text}"
        response = self.generate_response(prompt)
        translation = response.split(f"into {target_language}:")[-1].strip()
        return {"original_text": text, "translated_text": translation}

    def paraphrase_text(self, text: str) -> Dict[str, str]:
        """
        Paraphrases the given text.

        Parameters:
            text (str): The text to be paraphrased.

        Returns:
            Dict[str, str]: A dictionary containing the original text and the paraphrased version.
        """
        prompt = f"Paraphrase the following text:\n\n{text}"
        response = self.generate_response(prompt)
        paraphrase = response.split("Paraphrase:")[-1].strip()
        return {"original_text": text, "paraphrased_text": paraphrase}


def main():
    # Initialize text processor
    processor = TextProcessor()

    # Example input text
    text = "Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient."

    # Translation example
    translated = processor.translate_text(text, "Spanish")
    print("\nTranslation:")
    print(f"Original: {translated['original_text']}")
    print(f"Translated: {translated['translated_text']}")

    # Paraphrasing example
    paraphrased = processor.paraphrase_text(text)
    print("\nParaphrasing:")
    print(f"Original: {paraphrased['original_text']}")
    print(f"Paraphrased: {paraphrased['paraphrased_text']}")

if __name__ == "__main__":
    main()

Desglose del Código

Inicialización (clase TextProcessor):
- Configuración del Modelo y Tokenizador:
  - Utiliza AutoTokenizer y AutoModelForCausalLM para cargar GPT-4.
  - Mueve el modelo al dispositivo apropiado (cuda si hay GPU disponible, sino cpu).
- ¿Por qué AutoTokenizer y AutoModelForCausalLM?
  - Estas clases permiten compatibilidad con una amplia gama de modelos, incluyendo GPT-4.
Funciones Principales:
- generate_response:
  - Codifica el prompt y genera una respuesta usando GPT-4.
  - Parámetros configurables incluyen:
    - max_length: Controla la longitud de la salida.
    - temperature: Determina la diversidad del texto generado (valores más bajos producen salidas más deterministas).
- translate_text:
  - Construye un prompt que instruye a GPT-4 para traducir el texto dado al idioma objetivo.
  - Extrae el texto traducido de la respuesta.
- paraphrase_text:
  - Construye un prompt para parafrasear el texto de entrada.
  - Extrae el resultado parafraseado de la salida.
Flujo de Ejemplo (función main):
- Proporciona texto de ejemplo y demuestra:
  - Traducción al español.
  - Parafraseo del texto de entrada.
Ingeniería de Prompts:
- Los prompts están diseñados con instrucciones específicas (Traduce el siguiente texto..., Parafrasea el siguiente texto...) para guiar a GPT-4 en la ejecución precisa de tareas.

Ejemplo de Salida

Traducción:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Translated: La inteligencia artificial está revolucionando la forma en que vivimos y trabajamos, haciendo muchas tareas más eficientes.

Parafraseo:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Paraphrased: AI is transforming our lives and work processes, streamlining numerous tasks for greater efficiency.

Puntos Clave para la Traducción y Parafraseo con GPT-4

Prompts de Alta Calidad:
- Proporcionar instrucciones claras y específicas a GPT-4 para obtener mejores resultados.
Soporte de Idiomas Dinámico:
- Se puede traducir a múltiples idiomas cambiando target_language.
Compatibilidad de Dispositivos:
- Utiliza automáticamente la GPU si está disponible, asegurando un procesamiento más rápido.
Manejo de Errores (Mejora Opcional):
- Agregar validación para el texto de entrada y manejar casos donde la respuesta puede no coincidir con el formato esperado.

Esta implementación es modular, permitiendo extensiones para otras tareas de PLN como resumen o análisis de sentimientos.

5.2.6 Limitaciones de GPT

Contexto Unidireccional

GPT procesa el texto secuencialmente de izquierda a derecha, similar a cómo los humanos leen texto en la mayoría de los idiomas occidentales. Este enfoque de procesamiento unidireccional, aunque eficiente para generar texto, tiene limitaciones importantes en la comprensión del contexto en comparación con modelos bidireccionales como BERT. Cuando GPT encuentra una palabra, solo puede utilizar información de las palabras anteriores en la secuencia, creando un flujo unidireccional de información que afecta su comprensión contextual.

Esta naturaleza unidireccional tiene implicaciones significativas para la capacidad del modelo de entender el contexto. A diferencia de los humanos, que pueden fácilmente mirar hacia adelante y atrás en una oración para entender el significado, GPT debe hacer predicciones basándose únicamente en las palabras precedentes. Esto puede ser particularmente desafiante cuando se trata de fenómenos lingüísticos complejos como la anáfora (referencias a entidades mencionadas previamente), catáfora (referencias a entidades mencionadas después), o dependencias de largo alcance en el texto.

La limitación se vuelve particularmente evidente en tareas que requieren un análisis contextual integral. Por ejemplo, en el análisis de sentimientos, el verdadero significado de las palabras anteriores podría volverse claro solo después de leer la oración completa. En el análisis sintáctico, entender la estructura gramatical a menudo requiere conocimiento tanto de las palabras precedentes como de las siguientes. El análisis de estructuras oracionales complejas se vuelve más desafiante porque el modelo no puede aprovechar el contexto futuro para comprender mejor los tokens actuales.

Un ejemplo claro de esta limitación se puede ver en la oración "El banco junto al río estaba cerrado." Cuando GPT encuentra primero la palabra "banco," debe hacer una predicción sobre su significado sin saber sobre el "río" que sigue. Esto podría llevar a una interpretación inicial que favorezca el significado de institución financiera de "banco," que luego necesita ser revisada cuando aparece "río". En contraste, un modelo bidireccional consideraría simultáneamente tanto "río" como "banco," permitiendo una desambiguación inmediata y precisa del significado de la palabra. Este ejemplo ilustra cómo la naturaleza unidireccional de GPT puede impactar su capacidad para manejar lenguaje ambiguo e interpretaciones dependientes del contexto de manera efectiva.

Sesgos en los Datos de Entrenamiento

Los modelos GPT pueden heredar y amplificar sesgos presentes en sus conjuntos de datos de entrenamiento, que pueden manifestarse de manera problemática en múltiples dimensiones. Estos sesgos provienen de los datos históricos utilizados para entrenar los modelos y pueden incluir estereotipos de género (como asociar la enfermería con mujeres y la ingeniería con hombres), prejuicios culturales (como favorecer perspectivas occidentales sobre otras), sesgos raciales (incluyendo asociaciones o representaciones problemáticas), y varias inequidades históricas que existen en el corpus de entrenamiento.

La manifestación de estos sesgos se puede observar de varias maneras:

Lenguaje y Asociaciones de Palabras: El modelo puede emparejar consistentemente ciertos adjetivos o descripciones con grupos particulares
Atribución de Roles Profesionales: Al generar texto sobre carreras, el modelo podría predeterminar pronombres específicos de género para ciertas profesiones
Contexto Cultural: El modelo podría priorizar o entender mejor las referencias de culturas dominantes mientras malinterpreta o subrepresenta otras
Suposiciones Socioeconómicas: El contenido generado podría reflejar suposiciones sobre clase social, educación o estatus económico

Este problema se vuelve particularmente preocupante porque estos sesgos a menudo operan de manera sutil y pueden ser difíciles de detectar sin un análisis cuidadoso. Cuando el modelo genera nuevo contenido, puede no solo reflejar estos sesgos existentes sino potencialmente amplificarlos a través de varios mecanismos:

Bucles de Retroalimentación: El contenido generado podría usarse para entrenar futuros modelos, reforzando sesgos existentes
Efectos de Escala: A medida que las salidas del modelo se utilizan a escala, el contenido sesgado puede alcanzar e influir en audiencias más grandes
Toma de Decisiones Automatizada: Cuando se integra en sistemas automatizados, estos sesgos pueden afectar decisiones y resultados del mundo real

El desafío de abordar estos sesgos es complejo y requiere atención continua de investigadores, desarrolladores y usuarios de la tecnología. Implica una cuidadosa curación de conjuntos de datos, pruebas regulares de sesgos y la implementación de técnicas de eliminación de sesgos durante las fases de entrenamiento e inferencia.

Intensidad de Recursos

Los modelos grandes como GPT-4 requieren enormes recursos computacionales tanto para el entrenamiento como para el despliegue. El proceso de entrenamiento requiere una cantidad masiva de poder de procesamiento, utilizando a menudo miles de GPUs de alto rendimiento funcionando continuamente durante semanas o meses. Para ponerlo en perspectiva, entrenar un modelo como GPT-4 puede consumir tanta energía como la que utilizan varios miles de hogares estadounidenses en un año. Esta computación intensiva genera una significativa producción de calor, requiriendo sistemas de enfriamiento sofisticados que aumentan aún más el consumo de energía y el impacto ambiental.

La fase de despliegue presenta sus propios desafíos. Estos modelos requieren:

RAM sustancial: A menudo necesitando cientos de gigabytes de memoria para cargar el modelo completo
GPUs de alta gama: Aceleración de hardware especializada para una inferencia eficiente
Almacenamiento significativo: Los modelos pueden tener cientos de gigabytes de tamaño
Infraestructura robusta: Incluyendo sistemas de respaldo y medidas de redundanciaEstos requisitos crean varios efectos en cascada:
Barreras económicas: Los altos costos operativos hacen que estos modelos sean inaccesibles para muchas organizaciones pequeñas e investigadores
Limitaciones geográficas: No todas las regiones tienen acceso a la infraestructura computacional necesaria
Preocupaciones ambientales: La huella de carbono de ejecutar estos modelos a escala plantea serias cuestiones de sostenibilidadEsta intensidad de recursos ha generado importantes discusiones en la comunidad de IA sobre la búsqueda de formas para desarrollar modelos más eficientes y la exploración de técnicas como la compresión de modelos y la destilación de conocimiento para crear versiones más pequeñas y accesibles mientras se mantiene el rendimiento.

5.2.7 Puntos Clave

Los modelos GPT han revolucionado la generación de texto mediante el uso de su arquitectura autorregresiva - lo que significa que predicen cada palabra basándose en las palabras anteriores. Esto les permite crear texto similar al humano que fluye naturalmente y mantiene el contexto a lo largo del texto. Los modelos logran esto procesando el texto token por token, utilizando sofisticados mecanismos de atención para comprender las relaciones entre palabras y frases.
La arquitectura centrada en el decodificador de GPT representa una elección de diseño estratégica que optimiza el modelo para tareas generativas. A diferencia de los modelos codificador-decodificador que necesitan procesar tanto la entrada como la salida, el enfoque de solo decodificador de GPT agiliza el proceso de generación. Esto lo hace particularmente efectivo para tareas como la creación de contenido, escritura de historias y generación de código, donde el objetivo es producir nuevo texto coherente basado en indicaciones dadas.
El notable viaje desde GPT-1 hasta GPT-4 ha demostrado que aumentar el tamaño del modelo y los datos de entrenamiento puede llevar a mejoras dramáticas en la capacidad. GPT-1 comenzó con 117 millones de parámetros, mientras que GPT-3 escaló hasta 175 mil millones de parámetros. Este aumento masivo, combinado con la exposición a muchos más datos de entrenamiento, resultó en mejoras significativas en el rendimiento de tareas, comprensión del contexto y capacidad para seguir instrucciones complejas. Este patrón de escalamiento ha influido en todo el campo de la IA, sugiriendo que los modelos más grandes, cuando están correctamente entrenados, pueden exhibir comportamientos cada vez más sofisticados.
A pesar de sus impresionantes capacidades, los modelos GPT enfrentan limitaciones importantes. Su naturaleza unidireccional significa que solo pueden considerar las palabras anteriores al generar texto, potencialmente perdiendo contexto futuro importante. Además, los recursos computacionales requeridos para ejecutar estos modelos son sustanciales, planteando cuestiones sobre accesibilidad e impacto ambiental. Estos desafíos señalan oportunidades para investigación futura en el desarrollo de arquitecturas y métodos de entrenamiento más eficientes.

5.2 GPT y Transformers Autorregresivos

Esta arquitectura sofisticada permite que los modelos GPT sobresalgan en una amplia gama de aplicaciones:

Generación de Texto: Creación de artículos, historias y escritura creativa similares a los humanos
Resumen: Condensación de documentos largos manteniendo la información clave
Traducción: Conversión de texto entre idiomas preservando el significado
Sistemas de Diálogo: Participación en conversaciones naturales y provisión de respuestas contextualmente apropiadas

5.2.1 Conceptos Clave de GPT

1. Modelado Autorregresivo

Entrada: "El clima hoy está"
Salida: "soleado con probabilidad de lluvia."

Ejemplo de Código: Implementación de Generación de Texto Autorregresiva

import torch
import torch.nn as nn
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import numpy as np

class AutoregressiveGenerator:
    def __init__(self, model_name='gpt2'):
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.model.eval()
        
    def generate_text(self, prompt, max_length=100, temperature=0.7, top_k=50):
        # Encode the input prompt
        input_ids = self.tokenizer.encode(prompt, return_tensors='pt')
        
        # Initialize sequence with input prompt
        current_sequence = input_ids
        
        for _ in range(max_length):
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(current_sequence)
                next_token_logits = outputs.logits[:, -1, :]
            
            # Apply temperature scaling
            next_token_logits = next_token_logits / temperature
            
            # Apply top-k filtering
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            
            # Convert to probabilities
            probs = torch.softmax(top_k_logits, dim=-1)
            
            # Sample next token
            next_token_id = top_k_indices[0][torch.multinomial(probs[0], 1)]
            
            # Check for end of sequence
            if next_token_id == self.tokenizer.eos_token_id:
                break
            
            # Append new token to sequence
            current_sequence = torch.cat([current_sequence, 
                                       next_token_id.unsqueeze(0).unsqueeze(0)], dim=1)
        
        # Decode the generated sequence
        generated_text = self.tokenizer.decode(current_sequence[0], 
                                             skip_special_tokens=True)
        return generated_text

    def interactive_generation(self, initial_prompt):
        print(f"Initial prompt: {initial_prompt}")
        generated = self.generate_text(initial_prompt)
        print(f"Generated text: {generated}")
        return generated

# Example usage
def demonstrate_autoregressive_generation():
    generator = AutoregressiveGenerator()
    
    prompts = [
        "The artificial intelligence revolution will",
        "In the next decade, technology will",
        "The future of autonomous vehicles is"
    ]
    
    for prompt in prompts:
        print("\n" + "="*50)
        generator.interactive_generation(prompt)
        
if __name__ == "__main__":
    demonstrate_autoregressive_generation()

Desglose del Código:

Inicialización y Configuración:
- Crea una clase AutoregressiveGenerator que encapsula la funcionalidad de GPT-2
- Carga el modelo pre-entrenado y el tokenizador
- Establece el modelo en modo de evaluación para inferencia
Proceso de Generación de Texto:
- Implementa la generación token por token utilizando el enfoque autorregresivo
- Utiliza el escalado de temperatura para controlar la aleatoriedad en la generación
- Aplica filtrado top-k para seleccionar entre los tokens más probables siguientes
Características Principales:
- El parámetro de temperatura controla el equilibrio entre creatividad y consistencia
- El filtrado top-k ayuda a mantener una generación de texto coherente y enfocada
- Maneja la detección de fin de secuencia y la decodificación apropiada del texto

2. Paradigma de Pre-entrenamiento y Ajuste Fino

Similar a BERT, GPT sigue un proceso de entrenamiento integral en dos pasos que le permite tanto aprender patrones generales del lenguaje como especializarse en tareas específicas:

Procesamiento de miles de millones de tokens de diversas fuentes:
- Contenido web incluyendo artículos, foros y documentos académicos
- Obras literarias de varios géneros y períodos
- Documentación técnica y textos especializados
Aprendizaje de relaciones contextuales entre palabras:
- Comprensión de similitudes y diferencias semánticas
- Reconocimiento de expresiones idiomáticas y figuras retóricas
- Comprensión de significados de palabras dependientes del contexto
Desarrollo de una comprensión de la estructura del lenguaje:
- Dominio de reglas gramaticales y patrones sintácticos
- Aprendizaje de organización de documentos y párrafos
- Comprensión del flujo narrativo y coherencia

Entrenamiento con conjuntos de datos cuidadosamente curados y específicos para tareas:
- Uso de datos de alta calidad y validados que representan la tarea objetivo
- Asegurar ejemplos diversos para prevenir el sobreajuste
- Incorporación de terminología y convenciones específicas del dominio
Ajuste de parámetros del modelo para un rendimiento óptimo en tareas específicas:
- Ajuste de tasas de aprendizaje para prevenir el olvido catastrófico
- Implementación de parada temprana para lograr el mejor rendimiento
- Equilibrio entre la adaptación del modelo y la preservación de capacidades generales
Los ejemplos incluyen:
- Resumen: Entrenamiento con pares de documento-resumen
- Respuesta a preguntas: Uso de conjuntos de datos de preguntas y respuestas con variada complejidad
- Traducción: Ajuste fino con texto paralelo en múltiples idiomas
- Generación de contenido: Adaptación a estilos o formatos de escritura específicos

Ejemplo de código usando Entrenamiento GPT-4

import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForCausalLM
from torch.utils.data import Dataset, DataLoader

# Custom dataset for pre-training and fine-tuning
class TextDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=512):
        self.encodings = tokenizer(
            texts,
            truncation=True,
            padding="max_length",
            max_length=max_length,
            return_tensors="pt"
        )
    
    def __getitem__(self, idx):
        return {key: val[idx] for key, val in self.encodings.items()}
    
    def __len__(self):
        return len(self.encodings["input_ids"])

# Trainer class for GPT-4
class GPT4Trainer:
    def __init__(self, model_name="openai/gpt-4"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name).to(self.device)
    
    def train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5, task="pre-training"):
        dataset = TextDataset(texts, self.tokenizer)
        loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

        optimizer = torch.optim.AdamW(self.model.parameters(), lr=learning_rate)
        self.model.train()
        
        for epoch in range(epochs):
            total_loss = 0
            for batch in loader:
                input_ids = batch["input_ids"].to(self.device)
                attention_mask = batch["attention_mask"].to(self.device)
                
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=input_ids
                )
                loss = outputs.loss
                
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                
                total_loss += loss.item()
            
            avg_loss = total_loss / len(loader)
            print(f"{task.capitalize()} Epoch {epoch+1}/{epochs}, Average Loss: {avg_loss:.4f}")
    
    def pre_train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5):
        self.train(texts, batch_size, epochs, learning_rate, task="pre-training")
    
    def fine_tune(self, texts, batch_size=2, epochs=2, learning_rate=5e-6):
        self.train(texts, batch_size, epochs, learning_rate, task="fine-tuning")

# Example usage
def main():
    trainer = GPT4Trainer()

    # Pre-training data
    pre_training_texts = [
        "Artificial intelligence is a rapidly evolving field.",
        "Advancements in machine learning are reshaping industries.",
    ]

    # Fine-tuning data
    fine_tuning_texts = [
        "Transformer models use self-attention mechanisms.",
        "Backpropagation updates the weights of neural networks.",
    ]

    # Perform pre-training
    print("Starting pre-training...")
    trainer.pre_train(pre_training_texts)

    # Perform fine-tuning
    print("\nStarting fine-tuning...")
    trainer.fine_tune(fine_tuning_texts)

if __name__ == "__main__":
    main()

1. Clase TextDataset

Esta clase personalizada de conjunto de datos maneja el procesamiento de texto:

Tokeniza los textos de entrada usando el tokenizador del modelo
Maneja el relleno y truncamiento para asegurar longitudes uniformes de secuencia
Proporciona funcionalidad estándar de conjunto de datos PyTorch para la carga de datos

2. Clase GPT4Trainer

La clase principal de entrenamiento que gestiona el proceso de entrenamiento del modelo:

Inicializa el modelo GPT-4 y el tokenizador
Gestiona la asignación de dispositivos (CPU/GPU)
Proporciona métodos separados para pre-entrenamiento y ajuste fino
Implementa el bucle de entrenamiento con cálculo de pérdida y optimización

3. Proceso de Entrenamiento

El código demuestra tanto las etapas de pre-entrenamiento como de ajuste fino:

El pre-entrenamiento utiliza textos generales de IA y aprendizaje automático
El ajuste fino utiliza contenido técnico más específico sobre transformers y redes neuronales
Ambos procesos rastrean y muestran la pérdida promedio por época

4. Características Principales

La implementación incluye varias características importantes de entrenamiento:

Utiliza el optimizador AdamW para actualizaciones de pesos
Implementa diferentes tasas de aprendizaje para pre-entrenamiento y ajuste fino
Admite procesamiento por lotes para un entrenamiento eficiente
Incluye enmascaramiento de atención para un entrenamiento adecuado del transformer

Ejemplo de Salida

Starting pre-training...
Pre-training Epoch 1/3, Average Loss: 0.3456
Pre-training Epoch 2/3, Average Loss: 0.3012
Pre-training Epoch 3/3, Average Loss: 0.2849

Starting fine-tuning...
Fine-tuning Epoch 1/2, Average Loss: 0.1287
Fine-tuning Epoch 2/2, Average Loss: 0.1145

Este código proporciona una estructura limpia, modular y reutilizable para el pre-entrenamiento y ajuste fino de OpenAI GPT-4.

3. Transformer Solo-Decodificador

Esta naturaleza unidireccional, aunque limitante en algunos aspectos, hace que GPT sea altamente eficiente para tareas que requieren generar continuaciones contextualmente apropiadas de texto.

Ejemplo de Código: Implementación del Transformer Solo-Decodificador

import torch
import torch.nn as nn
import math

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.d_model = d_model
        self.num_heads = num_heads
        self.head_dim = d_model // num_heads
        
        self.q_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)
        
    def forward(self, x, mask=None):
        batch_size = x.size(0)
        
        # Linear transformations
        q = self.q_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        k = self.k_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        v = self.v_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        
        # Transpose for attention computation
        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)
        
        # Scaled dot-product attention
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Apply mask for decoder self-attention
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        attention_weights = torch.softmax(scores, dim=-1)
        attention = torch.matmul(attention_weights, v)
        
        # Reshape and apply output transformation
        attention = attention.transpose(1, 2).contiguous()
        attention = attention.view(batch_size, -1, self.d_model)
        return self.out(attention)

class DecoderBlock(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super().__init__()
        self.self_attention = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.ReLU(),
            nn.Linear(d_ff, d_model)
        )
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # Self-attention
        attn_output = self.self_attention(x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        # Feed forward
        ff_output = self.ff(x)
        x = self.norm2(x + self.dropout(ff_output))
        return x

class GPTModel(nn.Module):
    def __init__(self, vocab_size, d_model, num_layers, num_heads, d_ff, max_seq_len, dropout=0.1):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(max_seq_len, d_model)
        
        self.decoder_layers = nn.ModuleList([
            DecoderBlock(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.dropout = nn.Dropout(dropout)
        self.output_layer = nn.Linear(d_model, vocab_size)
        
    def generate_mask(self, size):
        mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
        return ~mask
        
    def forward(self, x):
        seq_len = x.size(1)
        positions = torch.arange(seq_len, device=x.device).unsqueeze(0)
        
        # Embeddings
        token_emb = self.token_embedding(x)
        pos_emb = self.position_embedding(positions)
        x = self.dropout(token_emb + pos_emb)
        
        # Create attention mask
        mask = self.generate_mask(seq_len).to(x.device)
        
        # Apply decoder layers
        for layer in self.decoder_layers:
            x = layer(x, mask)
            
        return self.output_layer(x)

# Example usage
def train_gpt():
    # Model parameters
    vocab_size = 50000
    d_model = 512
    num_layers = 6
    num_heads = 8
    d_ff = 2048
    max_seq_len = 1024
    
    # Initialize model
    model = GPTModel(
        vocab_size=vocab_size,
        d_model=d_model,
        num_layers=num_layers,
        num_heads=num_heads,
        d_ff=d_ff,
        max_seq_len=max_seq_len
    )
    
    return model

Desglose del Código:

Clase MultiHeadAttention:
- Implementa atención de producto escalar con múltiples cabezales
- Divide la entrada en proyecciones de consulta, clave y valor
- Aplica máscaras de atención para generación autorregresiva
Clase DecoderBlock:
- Contiene capas de auto-atención y alimentación hacia adelante
- Implementa conexiones residuales y normalización de capas
- Aplica dropout para regularización
Clase GPTModel:
- Combina incrustaciones de tokens y posicionales
- Apila múltiples capas de decodificador
- Implementa enmascaramiento causal para predicción autorregresiva

Características Principales:

Generación autorregresiva mediante enmascaramiento causal
Arquitectura escalable que admite diferentes tamaños de modelo
Implementación eficiente de mecanismos de atención

5.2.2 La Evolución de los Modelos GPT

GPT-1 (2018):

Ejemplo de Código: Implementación de GPT-1

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT1Config:
    def __init__(self):
        self.vocab_size = 40000
        self.n_positions = 512
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1

class LayerNorm(nn.Module):
    def __init__(self, hidden_size, eps=1e-12):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.bias = nn.Parameter(torch.zeros(hidden_size))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.weight * (x - mean) / (std + self.eps) + self.bias

class GPT1Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.dropout = config.dropout
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)

    def split_heads(self, x):
        new_x_shape = x.size()[:-1] + (self.n_head, x.size(-1) // self.n_head)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

    def forward(self, x, attention_mask=None):
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        q = self.split_heads(q)
        k = self.split_heads(k)
        v = self.split_heads(v)

        attn_weights = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(v.size(-1)))
        if attention_mask is not None:
            attn_weights = attn_weights.masked_fill(attention_mask[:, None, None, :] == 0, float('-inf'))
        
        attn_weights = F.softmax(attn_weights, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        attn_output = torch.matmul(attn_weights, v)
        
        attn_output = attn_output.permute(0, 2, 1, 3).contiguous()
        attn_output = attn_output.view(*attn_output.size()[:-2], self.n_embd)
        
        attn_output = self.c_proj(attn_output)
        attn_output = self.resid_dropout(attn_output)
        return attn_output

class GPT1Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.ln_1 = LayerNorm(config.n_embd)
        self.attn = GPT1Attention(config)
        self.ln_2 = LayerNorm(config.n_embd)
        self.mlp = nn.Sequential(
            nn.Linear(config.n_embd, 4 * config.n_embd),
            nn.GELU(),
            nn.Linear(4 * config.n_embd, config.n_embd),
            nn.Dropout(config.dropout),
        )

    def forward(self, x, attention_mask=None):
        attn_output = self.attn(self.ln_1(x), attention_mask)
        x = x + attn_output
        mlp_output = self.mlp(self.ln_2(x))
        x = x + mlp_output
        return x

class GPT1Model(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.wte = nn.Embedding(config.vocab_size, config.n_embd)
        self.wpe = nn.Embedding(config.n_positions, config.n_embd)
        self.drop = nn.Dropout(config.dropout)
        self.blocks = nn.ModuleList([GPT1Block(config) for _ in range(config.n_layer)])
        self.ln_f = LayerNorm(config.n_embd)

    def forward(self, input_ids, position_ids=None, attention_mask=None):
        if position_ids is None:
            position_ids = torch.arange(0, input_ids.size(-1), dtype=torch.long, device=input_ids.device)
            position_ids = position_ids.unsqueeze(0).expand_as(input_ids)

        inputs_embeds = self.wte(input_ids)
        position_embeds = self.wpe(position_ids)
        hidden_states = inputs_embeds + position_embeds
        hidden_states = self.drop(hidden_states)

        for block in self.blocks:
            hidden_states = block(hidden_states, attention_mask)

        hidden_states = self.ln_f(hidden_states)
        return hidden_states

Desglose del Código:

Configuración (GPT1Config):
- Define hiperparámetros del modelo como el tamaño del vocabulario (40,000)
- Establece la dimensión de embeddings (768), número de capas (12) y cabezales de atención (12)
Normalización de Capas (LayerNorm):
- Implementa normalización de capas personalizada para mejor estabilidad durante el entrenamiento
- Aplica normalización con parámetros aprendibles
Mecanismo de Atención (GPT1Attention):
- Implementa auto-atención multi-cabezal
- Divide las consultas, claves y valores en múltiples cabezales
- Aplica atención de producto escalar con dropout
Bloque Transformer (GPT1Block):
- Combina capas de atención y redes neuronales feed-forward
- Implementa conexiones residuales y normalización de capas
Modelo Principal (GPT1Model):
- Combina embeddings de tokens y posición
- Apila múltiples bloques transformer
- Procesa secuencias de entrada a través de toda la arquitectura del modelo

Características Principales de la Implementación:

Implementa la arquitectura original de GPT-1 con prácticas modernas de PyTorch
Incluye enmascaramiento de atención para un comportamiento autorregresivo adecuado
Utiliza funciones de activación GELU como en el paper original
Incorpora dropout para regularización en todo el modelo

GPT-2 (2019):

Transferencia de tareas zero-shot: El modelo podía realizar tareas sin ajuste fino específico
Mejor manejo de contexto: Podía procesar hasta 1024 tokens (comparado con los 512 de GPT-1)
Coherencia mejorada: Generaba texto notablemente similar al humano con mejor consistencia a largo plazo

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT2Config:
    def __init__(self):
        self.vocab_size = 50257
        self.n_positions = 1024
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5

class GPT2Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)
        
    def _attn(self, query, key, value, attention_mask=None):
        scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            scores = scores.masked_fill(attention_mask == 0, float('-inf'))
            
        attn_weights = F.softmax(scores, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        
        return torch.matmul(attn_weights, value)
        
    def forward(self, x, layer_past=None, attention_mask=None):
        qkv = self.c_attn(x)
        query, key, value = qkv.split(self.n_embd, dim=2)
        
        query = query.view(-1, query.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(-1, key.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(-1, value.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        
        attn_output = self._attn(query, key, value, attention_mask)
        attn_output = attn_output.transpose(1, 2).contiguous().view(-1, x.size(-2), self.n_embd)
        
        return self.resid_dropout(self.c_proj(attn_output))

Desglose del Código:

Configuración (GPT2Config):
- Define parámetros de modelo más grandes en comparación con GPT-1
- Aumenta la ventana de contexto a 1024 tokens
- Utiliza un vocabulario de 50,257 tokens
Mecanismo de Atención (GPT2Attention):
- Implementa atención de producto escalar mejorada
- Utiliza matrices de proyección separadas para consulta, clave y valor
- Incluye enmascaramiento de atención optimizado para mejor rendimiento

Mejoras Clave sobre GPT-1:

Mayor capacidad del modelo con eficiencia mejorada de parámetros
Mecanismo de atención mejorado con mejor escalabilidad
Embeddings posicionales más sofisticados para secuencias más largas
Esquemas mejorados de normalización de capas e inicialización

GPT-3 (2020):

Generación de Texto: Produciendo texto similar al humano con coherencia excepcional y consciencia contextual a través de varios formatos incluyendo ensayos, historias, código e incluso poesía.
Aprendizaje con Pocos Ejemplos: A diferencia de modelos anteriores, GPT-3 podía realizar nuevas tareas simplemente mostrándole algunos ejemplos en lenguaje natural, sin ningún ajuste fino o entrenamiento adicional. Esta capacidad le permitía adaptarse a nuevos contextos sobre la marcha.
Multitarea: El modelo mostró competencia en el manejo de diversas tareas como traducción, respuesta a preguntas y aritmética, todo dentro de una única arquitectura de modelo. Esta versatilidad eliminó la necesidad de ajuste fino específico por tarea, convirtiéndolo en un modelo de lenguaje verdaderamente de propósito general.

Ejemplo de Código: Implementación de GPT-3

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class GPT3Config:
    def __init__(self):
        self.vocab_size = 50400
        self.n_positions = 2048
        self.n_embd = 12288
        self.n_layer = 96
        self.n_head = 96
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5
        self.rotary_dim = 64  # For rotary position embeddings

class RotaryEmbedding(nn.Module):
    def __init__(self, dim, max_position_embeddings=2048):
        super().__init__()
        self.dim = dim
        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)

    def forward(self, positions):
        sincos = torch.einsum('i,j->ij', positions.float(), self.inv_freq)
        sin, cos = torch.sin(sincos), torch.cos(sincos)
        return torch.cat((sin, cos), dim=-1)

class GPT3Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.query = nn.Linear(config.n_embd, config.n_embd)
        self.key = nn.Linear(config.n_embd, config.n_embd)
        self.value = nn.Linear(config.n_embd, config.n_embd)
        self.out_proj = nn.Linear(config.n_embd, config.n_embd)
        
        self.rotary_emb = RotaryEmbedding(config.rotary_dim)
        self.dropout = nn.Dropout(config.dropout)
        
    def apply_rotary_pos_emb(self, x, positions):
        rot_emb = self.rotary_emb(positions)
        x_rot = x[:, :, :self.rotary_dim]
        x_pass = x[:, :, self.rotary_dim:]
        x_rot = torch.cat((-x_rot[..., 1::2], x_rot[..., ::2]), dim=-1)
        return torch.cat((x_rot * rot_emb, x_pass), dim=-1)

    def forward(self, hidden_states, attention_mask=None, position_ids=None):
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        
        if position_ids is not None:
            query = self.apply_rotary_pos_emb(query, position_ids)
            key = self.apply_rotary_pos_emb(key, position_ids)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
            
        attention_probs = F.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.n_embd)
        
        return self.out_proj(context)

Desglose del Código:

Configuración (GPT3Config):
- Parámetros del modelo significativamente más grandes en comparación con GPT-2
- Ventana de contexto extendida a 2048 tokens
- Dimensión de embedding masiva de 12,288
- 96 cabezales y capas de atención para mayor capacidad
Embeddings Posicionales Rotatorios (RotaryEmbedding):
- Implementa RoPE (Embeddings Posicionales Rotatorios)
- Proporciona mejor información posicional que los embeddings absolutos
- Permite un mejor manejo de secuencias más largas
Mecanismo de Atención Mejorado (GPT3Attention):
- Matrices de proyección separadas para consulta, clave y valor
- Implementa integración de embeddings posicionales rotatorios
- Enmascaramiento de atención avanzado y dropout para regularización

Mejoras Clave sobre GPT-2:

Capacidad del modelo dramáticamente aumentada (175B parámetros)
Codificación posicional avanzada con embeddings rotatorios
Mecanismo de atención mejorado con mejores propiedades de escalado
Estabilidad numérica mejorada mediante inicialización y normalización cuidadosa

Esta implementación demuestra la sofisticación arquitectónica de GPT-3, mostrando los componentes clave que permiten su notable rendimiento en una amplia gama de tareas de lenguaje.

GPT-4 (2023)

Excelencia en Procesamiento del Lenguaje Natural:

Comprensión y generación de lenguaje natural con matices y precisión sin precedentes
- Comprensión avanzada del contexto y sutilezas en la comunicación humana
- Capacidad mejorada para mantener la consistencia en contenido de formato largo
- Mejor comprensión de referencias culturales y expresiones idiomáticas

Capacidades Multimodales:

Procesamiento y análisis de imágenes junto con texto (capacidades multimodales)
- Puede comprender y describir información visual compleja
- Capacidad para analizar gráficos, diagramas y dibujos técnicos
- Puede generar respuestas detalladas basadas en entradas visuales

Capacidades Cognitivas Mejoradas:

Capacidades mejoradas de razonamiento y resolución de problemas
- Habilidades avanzadas de análisis lógico y deducción
- Mejor manejo de problemas matemáticos complejos
- Capacidad mejorada para desglosar problemas complejos en pasos manejables

Fiabilidad y Precisión:

Precisión factual mejorada y alucinaciones reducidas
- Recuperación de información más consistente y confiable
- Mejores capacidades de verificación de fuentes y comprobación de hechos
- Tendencia reducida a generar información falsa o engañosa

Excelencia Académica y Profesional:

Mejor rendimiento en pruebas académicas y profesionales
- Experiencia demostrada en varios campos profesionales
- Comprensión mejorada de contenido técnico y especializado
- Capacidad mejorada para proporcionar perspectivas a nivel experto

Seguimiento de Instrucciones:

Mayor capacidad para seguir instrucciones complejas
- Mejor comprensión de tareas de múltiples pasos
- Mejor adherencia a pautas y restricciones específicas
- Capacidad mejorada para mantener el contexto en interacciones prolongadas

Ejemplo de Código: Implementación de GPT-4

import torch
import torch.nn as nn
import math
from typing import Optional, Tuple

class GPT4Config:
    def __init__(self):
        self.vocab_size = 100000
        self.hidden_size = 12288
        self.num_hidden_layers = 128
        self.num_attention_heads = 96
        self.intermediate_size = 49152
        self.max_position_embeddings = 8192
        self.layer_norm_eps = 1e-5
        self.dropout = 0.1

class MultiModalEmbedding(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.text_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        self.image_projection = nn.Linear(1024, config.hidden_size)  # Assuming image features of size 1024
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.modality_type_embeddings = nn.Embedding(2, config.hidden_size)  # 0 for text, 1 for image
        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.dropout)

    def forward(self, input_ids=None, image_features=None, position_ids=None):
        if input_ids is not None:
            inputs_embeds = self.text_embeddings(input_ids)
            modality_type = torch.zeros_like(position_ids)
        else:
            inputs_embeds = self.image_projection(image_features)
            modality_type = torch.ones_like(position_ids)
        
        position_embeddings = self.position_embeddings(position_ids)
        modality_embeddings = self.modality_type_embeddings(modality_type)
        
        embeddings = inputs_embeds + position_embeddings + modality_embeddings
        embeddings = self.layernorm(embeddings)
        return self.dropout(embeddings)

class GPT4Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.num_attention_heads = config.num_attention_heads
        self.hidden_size = config.hidden_size
        self.head_dim = config.hidden_size // config.num_attention_heads
        
        self.query = nn.Linear(config.hidden_size, config.hidden_size)
        self.key = nn.Linear(config.hidden_size, config.hidden_size)
        self.value = nn.Linear(config.hidden_size, config.hidden_size)
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        
        self.dropout = nn.Dropout(config.dropout)
        self.scale = math.sqrt(self.head_dim)

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        cache: Optional[Tuple[torch.Tensor]] = None
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor]]]:
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        
        if cache is not None:
            past_key, past_value = cache
            key = torch.cat([past_key, key], dim=2)
            value = torch.cat([past_value, value], dim=2)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / self.scale
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
        
        attention_probs = nn.functional.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.hidden_size)
        
        output = self.dense(context)
        
        return output, (key, value) if cache is not None else None

Desglose del Código:

Configuración (GPT4Config):
- Vocabulario expandido a 100,000 tokens
- Tamaño oculto aumentado a 12,288
- 128 capas transformer para procesamiento más profundo
- Ventana de contexto extendida a 8,192 tokens
Embedding Multimodal:
- Maneja entradas de texto e imagen
- Implementa embeddings posicionales sofisticados
- Incluye embeddings específicos por modalidad
- Utiliza normalización de capas para entrenamiento estable
Mecanismo de Atención Mejorado (GPT4Attention):
- Implementa atención de producto punto escalado con eficiencia mejorada
- Admite estados clave/valor en caché para inferencia más rápida
- Incluye enmascaramiento de atención para flujo de información controlado
- Operaciones matriciales optimizadas para mejor rendimiento

Mejoras Clave sobre GPT-3:

Soporte nativo para múltiples modalidades (texto e imágenes)
Mecanismo de caché más sofisticado para inferencia eficiente
Patrones de atención mejorados para mejores dependencias de largo alcance
Embeddings posicionales mejorados para manejo de secuencias más largas

Esta implementación muestra la arquitectura avanzada de GPT-4, particularmente sus capacidades multimodales y mecanismos de atención mejorados que permiten un mejor rendimiento en diversas tareas.

5.2.3 Cómo Funciona GPT

Fundamento Matemático

GPT calcula la probabilidad de un token x_t dados sus tokens precedentes x_1, x_2, \dots, x_{t-1} como:

P(xt∣x1,x2,…,xt−1)=softmax(Wo⋅Ht)

Donde:

H_t es el estado oculto en la posición t, calculado usando el mecanismo de atención. Este estado oculto representa la comprensión del modelo del contexto del token basado en todos los tokens anteriores en la secuencia. Se calcula a través de múltiples capas de auto-atención y redes neuronales feed-forward.
W_o es la matriz de pesos de salida aprendida que transforma el estado oculto en logits sobre el vocabulario. Esta matriz es crucial ya que mapea las representaciones internas del modelo a probabilidades reales de palabras.

5.2.4 Comparación: GPT vs. BERT

Característica	GPT	BERT
Contexto	Unidireccional (procesa el texto solo de izquierda a derecha, similar a cómo los humanos leen y escriben). Esto permite una generación eficiente de texto pero limita la comprensión del contexto bidireccional.	Bidireccional (procesa el texto en ambas direcciones simultáneamente). Esto permite una mejor comprensión del contexto y las relaciones entre palabras en una oración.
Arquitectura	Transformer de solo decodificador que se especializa en generar secuencias de texto. Utiliza auto-atención enmascarada para evitar ver tokens futuros durante el entrenamiento y la inferencia.	Transformer de solo codificador que se centra en comprender el texto de entrada. Utiliza auto-atención completa para analizar las relaciones entre todas las palabras en una secuencia.
Caso de Uso Principal	Tareas de generación de texto como escritura, traducción y creación de contenido creativo. Sobresale en producir continuaciones de texto coherentes y contextualmente relevantes.	Tareas de comprensión del lenguaje como clasificación, reconocimiento de entidades nombradas y respuesta a preguntas. Más adecuado para analizar y extraer significado de textos existentes.
Objetivo de Entrenamiento	Predicción del siguiente token: aprende a predecir la siguiente palabra en una secuencia dado las palabras anteriores. Este enfoque autorregresivo permite la generación natural de texto.	Predicción de tokens enmascarados: enmascara aleatoriamente palabras en el texto de entrada y aprende a predecirlas usando tanto el contexto izquierdo como el derecho. También realiza predicción de la siguiente oración.

Ejemplo Práctico: Usando GPT para Generación de Texto

Así es cómo usar GPT-2 mediante la biblioteca Transformers de Hugging Face para generar texto coherente.

Ejemplo de Código: Generación de Texto con GPT-2

from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch
import time

def setup_model(model_name="gpt2"):
    """Initialize the model and tokenizer"""
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name)
    return tokenizer, model

def generate_text(prompt, model, tokenizer, 
                 max_length=100,
                 num_beams=5,
                 temperature=0.7,
                 top_k=50,
                 top_p=0.95,
                 no_repeat_ngram_size=2,
                 num_return_sequences=3):
    """Generate text with various parameters for control"""
    
    # Encode the input prompt
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids
    
    # Generate with specified parameters
    start_time = time.time()
    
    outputs = model.generate(
        input_ids,
        max_length=max_length,
        num_beams=num_beams,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        no_repeat_ngram_size=no_repeat_ngram_size,
        num_return_sequences=num_return_sequences,
        pad_token_id=tokenizer.eos_token_id,
        early_stopping=True
    )
    
    generation_time = time.time() - start_time
    
    # Decode and return the generated sequences
    generated_texts = [tokenizer.decode(output, skip_special_tokens=True) 
                      for output in outputs]
    
    return generated_texts, generation_time

def main():
    # Set up model and tokenizer
    tokenizer, model = setup_model()
    
    # Example prompts
    prompts = [
        "The future of artificial intelligence is",
        "In the next decade, technology will",
        "The most important scientific discovery was"
    ]
    
    # Generate text for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        print("-" * 50)
        
        generated_texts, generation_time = generate_text(
            prompt=prompt,
            model=model,
            tokenizer=tokenizer
        )
        
        print(f"Generation Time: {generation_time:.2f} seconds")
        print("\nGenerated Sequences:")
        for i, text in enumerate(generated_texts, 1):
            print(f"\n{i}. {text}\n")

if __name__ == "__main__":
    main()

Desglose del Código:

Configuración e Importaciones:
- Utiliza la biblioteca transformers para acceder al modelo GPT-2
- Incluye torch para operaciones con tensores
- Módulo time para monitoreo de rendimiento
Funciones Principales:
- setup_model(): Inicializa el modelo y el tokenizador
- generate_text(): Función principal de generación con múltiples parámetros
- main(): Orquesta el proceso de generación con múltiples prompts
Parámetros de Generación:
- max_length: Longitud máxima del texto generado
- num_beams: Número de haces para la búsqueda por haces
- temperature: Controla la aleatoriedad (mayor = más aleatorio)
- top_k: Limita el vocabulario a los K tokens principales
- top_p: Parámetro de muestreo núcleo
- no_repeat_ngram_size: Previene la repetición de n-gramas
Características:
- Manejo de múltiples prompts
- Seguimiento del tiempo de generación
- Generación de múltiples secuencias por prompt
- Parámetros de generación configurables

5.2.5 Aplicaciones de GPT

Generación de Texto

Las capacidades creativas del modelo son extensas y matizadas:

Para historias, puede desarrollar tramas complejas con múltiples líneas argumentales, crear personajes multidimensionales con personalidades distintivas, y tejer arcos narrativos intrincados que mantienen a los lectores enganchados de principio a fin.
Para ensayos, puede construir argumentos bien razonados respaldados por ejemplos relevantes, mantener un flujo lógico entre párrafos, y adaptar su estilo de escritura para ajustarse a tonos académicos, profesionales o casuales según sea necesario.
Para poesía, puede elaborar versos que demuestran comprensión de varias formas poéticas (sonetos, haikus, verso libre), incorporar dispositivos literarios sofisticados (metáforas, aliteración, asonancia), y mantener esquemas consistentes de métrica y rima cuando se requiere.

Esta versatilidad en la generación creativa proviene de varios factores clave:

Su entrenamiento en diversas fuentes de texto, incluyendo literatura, artículos académicos y contenido en línea
Su capacidad para capturar patrones sutiles en la estructura del lenguaje a través de sus mecanismos de atención multicapa
Su comprensión contextual que le permite mantener la consistencia temática a lo largo de pasajes extensos
Su capacidad para adaptar el estilo de escritura según los prompts o ejemplos dados

Ejemplo de Código: Generación de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class GPT4TextGenerator:
    def __init__(self, model_name: str = "gpt4-base"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_with_streaming(
        self,
        prompt: str,
        max_length: int = 200,
        temperature: float = 0.8,
        top_p: float = 0.9,
        presence_penalty: float = 0.0,
        frequency_penalty: float = 0.0,
    ) -> str:
        # Encode the input prompt
        inputs = self.tokenizer.encode(prompt, return_tensors="pt").to(self.device)
        
        # Track generated tokens for penalties
        generated_tokens = []
        current_length = 0
        
        while current_length < max_length:
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(inputs)
                next_token_logits = outputs.logits[:, -1, :]
                
                # Apply temperature scaling
                next_token_logits = next_token_logits / temperature
                
                # Apply penalties
                if len(generated_tokens) > 0:
                    for token_id in set(generated_tokens):
                        # Presence penalty
                        next_token_logits[0, token_id] -= presence_penalty
                        # Frequency penalty
                        freq = generated_tokens.count(token_id)
                        next_token_logits[0, token_id] -= frequency_penalty * freq
                
                # Apply nucleus (top-p) sampling
                sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
                cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0
                indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
                next_token_logits[indices_to_remove] = float('-inf')
                
                # Sample next token
                probs = torch.softmax(next_token_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                
                # Break if we generate an EOS token
                if next_token.item() == self.tokenizer.eos_token_id:
                    break
                
                # Append the generated token
                generated_tokens.append(next_token.item())
                inputs = torch.cat([inputs, next_token.unsqueeze(0)], dim=1)
                current_length += 1
                
                # Yield intermediate results
                current_text = self.tokenizer.decode(generated_tokens)
                yield current_text

    def generate(self, prompt: str, **kwargs) -> str:
        """Non-streaming version of text generation"""
        return list(self.generate_with_streaming(prompt, **kwargs))[-1]

# Example usage
def main():
    generator = GPT4TextGenerator()
    
    prompts = [
        "Explain the concept of quantum computing in simple terms:",
        "Write a short story about a time traveler:",
        "Describe the process of photosynthesis:"
    ]
    
    for prompt in prompts:
        print(f"\nPrompt: {prompt}\n")
        print("Generating response...")
        
        # Stream the generation
        for partial_response in generator.generate_with_streaming(
            prompt,
            max_length=150,
            temperature=0.7,
            top_p=0.9,
            presence_penalty=0.2,
            frequency_penalty=0.2
        ):
            print(partial_response, end="\r")
        print("\n" + "="*50)

if __name__ == "__main__":
    main()

Desglose del Código:

Estructura de Clase:
- Implementa una clase GPT4TextGenerator para la generación organizada de texto
- Utiliza AutoTokenizer y AutoModelForCausalLM para la carga del modelo
- Compatible con inferencia en GPU y CPU
Características Avanzadas de Generación:
- Generación en streaming con declaraciones yield
- Aleatoriedad controlada por temperatura
- Muestreo de núcleo (top-p) para mejor calidad
- Penalizaciones de presencia y frecuencia para reducir la repetición
Parámetros Clave:
- max_length: Controla la longitud máxima del texto generado
- temperature: Ajusta la aleatoriedad en la selección de tokens
- top_p: Controla el umbral de muestreo de núcleo
- presence_penalty: Reduce la repetición de tokens
- frequency_penalty: Penaliza el uso frecuente de tokens
Detalles de Implementación:
- Generación eficiente de tokens con torch.no_grad()
- Aplicación dinámica de penalizaciones para mejor calidad de texto
- Transmisión en tiempo real del texto generado
- Manejo flexible de prompts con ejemplos de uso

Sistemas de Diálogo

Procesa entradas de lenguaje natural mediante la comprensión de la intención del usuario, el contexto y los matices en la comunicación a través de:
- Análisis semántico de mensajes del usuario para captar el significado subyacente
- Reconocimiento de subtextos emocionales y sentimientos
- Interpretación de coloquialismos y expresiones idiomáticas
Genera respuestas similares a las humanas que mantienen el flujo de conversación y el contexto a través de múltiples intercambios mediante:
- Seguimiento del historial de conversación para mantener un diálogo coherente
- Uso de referencias apropiadas a mensajes anteriores
- Aseguramiento de la progresión lógica de ideas y temas
Maneja diversos escenarios de conversación, desde servicio al cliente hasta tutoría educativa, a través de:
- Bases de conocimiento especializadas para diferentes dominios
- Estrategias de respuesta adaptativas basadas en el tipo de conversación
- Integración con marcos de trabajo orientados a tareas específicas
Adapta el tono y estilo según el contexto de la conversación y las preferencias del usuario mediante:
- Reconocimiento de situaciones formales vs informales
- Ajuste de la complejidad técnica según la experiencia del usuario
- Correspondencia de resonancia emocional cuando es apropiado

Ejemplo de Código: Sistemas de Diálogo con GPT-2

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict
from dataclasses import dataclass
from datetime import datetime

@dataclass
class DialogueContext:
    conversation_history: List[Dict[str, str]]
    max_history: int = 5
    system_prompt: str = "You are a helpful AI assistant."

class DialogueSystem:
    def __init__(self, model_name: str = "gpt2"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def format_dialogue(self, context: DialogueContext) -> str:
        formatted = context.system_prompt + "\n\n"
        for message in context.conversation_history[-context.max_history:]:
            role = message["role"]
            content = message["content"]
            formatted += f"{role}: {content}\n"
        return formatted
    
    def generate_response(
        self,
        context: DialogueContext,
        max_length: int = 100,
        temperature: float = 0.7,
        top_p: float = 0.9
    ) -> str:
        # Format the conversation history
        dialogue_text = self.format_dialogue(context)
        dialogue_text += "Assistant: "
        
        # Encode and generate
        inputs = self.tokenizer.encode(dialogue_text, return_tensors="pt").to(self.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=inputs.shape[1] + max_length,
                temperature=temperature,
                top_p=top_p,
                pad_token_id=self.tokenizer.eos_token_id,
                num_return_sequences=1
            )
        
        response = self.tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)
        return response.strip()

def main():
    # Initialize the dialogue system
    dialogue_system = DialogueSystem()
    
    # Create a conversation context
    context = DialogueContext(
        conversation_history=[],
        max_history=5,
        system_prompt="You are a helpful AI assistant specialized in technical support."
    )
    
    # Example conversation
    user_messages = [
        "I'm having trouble with my laptop. It's running very slowly.",
        "Yes, it's a Windows laptop and it's about 2 years old.",
        "I haven't cleaned up any files recently.",
    ]
    
    for message in user_messages:
        # Add user message to history
        context.conversation_history.append({
            "role": "User",
            "content": message,
            "timestamp": datetime.now().isoformat()
        })
        
        # Generate and add assistant response
        response = dialogue_system.generate_response(context)
        context.conversation_history.append({
            "role": "Assistant",
            "content": response,
            "timestamp": datetime.now().isoformat()
        })
        
        # Print the exchange
        print(f"\nUser: {message}")
        print(f"Assistant: {response}")

if __name__ == "__main__":
    main()

Desglose del Código:

Componentes Principales:
- Clase DialogueContext para gestionar el estado de la conversación
- Clase DialogueSystem para manejar las interacciones del modelo
- Gestión eficiente del historial de conversación con límite max_history
Características Principales:
- Mantiene el contexto de la conversación a través de múltiples intercambios
- Implementa muestreo por temperatura y top-p para la generación de respuestas
- Incluye seguimiento de marca temporal para cada mensaje
- Admite prompts del sistema para la definición de roles
Detalles de Implementación:
- Utiliza la biblioteca transformers para el manejo del modelo
- Implementa generación eficiente de respuestas con torch.no_grad()
- Formatea el historial de diálogo para respuestas contextualizadas
- Maneja mensajes tanto del usuario como del asistente en un formato estructurado
Características Avanzadas:
- Longitud configurable del historial de conversación
- Personalización flexible del prompt del sistema
- Almacenamiento estructurado de mensajes con marcas temporales
- Soporte para aceleración GPU cuando está disponible

Resumen

Procesamiento eficiente de información mediante la condensación de textos extensos en resúmenes digeribles:
- Reduce el tiempo de lectura hasta en un 75% mientras mantiene la integridad del mensaje principal
- Identifica y resalta automáticamente los puntos más significativos
- Utiliza algoritmos avanzados para determinar la relevancia y prioridad de la información
Extracción de puntos cruciales manteniendo el contexto y significado:
- Emplea análisis semántico sofisticado para entender las relaciones entre ideas
- Preserva el contexto crítico que da significado a la información extraída
- Asegura el flujo lógico y la coherencia en el contenido resumido
Múltiples estilos de resumen:
- Resúmenes extractivos que extraen oraciones clave directamente de la fuente:
  - Mantiene la voz original del autor y la redacción precisa
  - Ideal para documentos técnicos o legales donde la fraseología exacta es crucial
- Resúmenes abstractivos que reformulan el contenido con nuevas palabras:
  - Crea narrativas más naturales y fluidas
  - Maneja mejor la redundancia y la síntesis de información
- Resúmenes de longitud controlada adaptables a diferentes necesidades:
  - Abarca desde breves resúmenes ejecutivos hasta descripciones detalladas
  - Ratios de compresión personalizables según la longitud objetivo

Ejemplo de Código: Resumen de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict, Optional

class TextSummarizer:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def generate_summary(
        self,
        text: str,
        max_length: int = 150,
        min_length: Optional[int] = None,
        temperature: float = 0.7,
        num_beams: int = 4,
    ) -> Dict[str, str]:
        # Prepare the prompt
        prompt = f"Summarize the following text:\n\n{text}\n\nSummary:"
        
        # Encode the input text
        inputs = self.tokenizer.encode(
            prompt,
            return_tensors="pt",
            max_length=1024,
            truncation=True
        ).to(self.device)
        
        # Generate summary
        with torch.no_grad():
            summary_ids = self.model.generate(
                inputs,
                max_length=max_length,
                min_length=min_length or 50,
                num_beams=num_beams,
                temperature=temperature,
                no_repeat_ngram_size=3,
                length_penalty=2.0,
                early_stopping=True
            )
        
        # Decode and format the summary
        summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)
        
        # Extract the summary part
        summary_text = summary.split("Summary:")[-1].strip()
        
        return {
            "original_text": text,
            "summary": summary_text,
            "compression_ratio": len(summary_text.split()) / len(text.split())
        }

def main():
    # Initialize summarizer
    summarizer = TextSummarizer()
    
    # Example text to summarize
    sample_text = """
    Artificial intelligence has transformed numerous industries, from healthcare 
    to transportation. Machine learning algorithms now power everything from 
    recommendation systems to autonomous vehicles. Deep learning, a subset of AI, 
    has particularly excelled in pattern recognition tasks, enabling breakthroughs 
    in image and speech recognition. As these technologies continue to evolve, 
    they raise important questions about ethics, privacy, and the future of work.
    """
    
    # Generate summaries with different parameters
    summaries = []
    for temp in [0.3, 0.7]:
        for length in [100, 150]:
            result = summarizer.generate_summary(
                sample_text,
                max_length=length,
                temperature=temp
            )
            summaries.append(result)
    
    # Print results
    for i, summary in enumerate(summaries, 1):
        print(f"\nSummary {i}:")
        print(f"Text: {summary['summary']}")
        print(f"Compression Ratio: {summary['compression_ratio']:.2f}")

if __name__ == "__main__":
    main()

Como puedes ver, este código implementa un sistema de resumen de texto usando GPT-4. Aquí hay un desglose completo de sus componentes principales:

Clase TextSummarizer:

Se inicializa con un modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, sino recurre a CPU
Utiliza la biblioteca transformers para el manejo del modelo

Método generate_summary:

Acepta parámetros de entrada:
- text: El contenido a resumir
- max_length: Longitud máxima del resumen (predeterminado 150)
- min_length: Longitud mínima del resumen (opcional)
- temperature: Controla la aleatoriedad (predeterminado 0.7)
- num_beams: Número de haces para la búsqueda por haces (predeterminado 4)

Características Principales:

Utiliza búsqueda por haces para resúmenes de mejor calidad
Implementa no_repeat_ngram para prevenir repeticiones
Incluye penalización por longitud y parada temprana
Calcula la relación de compresión entre el texto original y el resumido

Función Principal:

Demuestra el uso con un texto de ejemplo relacionado con IA
Genera múltiples resúmenes con diferentes parámetros:
- Prueba dos valores de temperatura (0.3 y 0.7)
- Prueba dos configuraciones de longitud (100 y 150)

Ejemplo de Salida

Summary 1:
Text: Artificial intelligence has revolutionized industries, with machine learning driving innovation in healthcare and transportation.
Compression Ratio: 0.30

Summary 2:
Text: AI advancements in machine learning and deep learning are enabling breakthroughs while raising ethical concerns.
Compression Ratio: 0.27

Generación de Código

Completación Inteligente de Código con Conciencia Contextual Avanzada
- Analiza el contexto del código circundante para sugerir las llamadas a funciones y nombres de variables más relevantes basados en patrones existentes
- Aprende de las convenciones de codificación específicas del proyecto para mantener un estilo consistente
- Predice y completa patrones de programación complejos considerando el contexto completo del código base
- Adapta las sugerencias según las bibliotecas importadas y las convenciones específicas del framework
Generación Sofisticada de Código Boilerplate
- Crea automáticamente plantillas de implementación estandarizadas siguiendo las mejores prácticas de la industria
- Genera estructuras completas de clases, interfaces y patrones de diseño
- Maneja tareas repetitivas de codificación eficientemente mientras mantiene la consistencia
- Soporta múltiples lenguajes de programación y frameworks con la sintaxis apropiada
Detección Integral de Errores y Mejora de la Calidad del Código
- Identifica proactivamente problemas potenciales incluyendo errores de ejecución, fugas de memoria y vulnerabilidades de seguridad
- Sugiere optimizaciones y mejoras basadas en estándares de codificación establecidos
- Proporciona explicaciones detalladas para las correcciones propuestas para ayudar a los desarrolladores a aprender
- Analiza la complejidad del código y sugiere oportunidades de refactorización para mejorar la mantenibilidad

Ejemplo de Código: Generación de Código con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class CodeGenerator:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
    
    def generate_code(
        self,
        prompt: str,
        max_length: int = 512,
        temperature: float = 0.7,
        top_p: float = 0.95,
        num_return_sequences: int = 1,
    ) -> List[str]:
        # Prepare the prompt with coding context
        formatted_prompt = f"Generate Python code for: {prompt}\n\nCode:"
        
        # Encode the prompt
        inputs = self.tokenizer.encode(
            formatted_prompt,
            return_tensors="pt",
            max_length=128,
            truncation=True
        ).to(self.device)
        
        # Generate code sequences
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=top_p,
                num_return_sequences=num_return_sequences,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                early_stopping=True
            )
        
        # Decode and format generated code
        generated_code = []
        for output in outputs:
            code = self.tokenizer.decode(output, skip_special_tokens=True)
            # Extract only the generated code part
            code = code.split("Code:")[-1].strip()
            generated_code.append(code)
            
        return generated_code
    
    def improve_code(
        self,
        code: str,
        improvement_type: str = "optimization"
    ) -> Dict[str, str]:
        # Prepare prompt for code improvement
        prompt = f"Improve the following code ({improvement_type}):\n{code}\n\nImproved code:"
        
        # Generate improved version
        improved = self.generate_code(prompt, temperature=0.5)[0]
        
        return {
            "original": code,
            "improved": improved,
            "improvement_type": improvement_type
        }

def main():
    # Initialize generator
    generator = CodeGenerator()
    
    # Example prompts
    prompts = [
        "Create a function to calculate fibonacci numbers using dynamic programming",
        "Implement a binary search tree class with insert and search methods"
    ]
    
    # Generate code for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        generated_codes = generator.generate_code(
            prompt,
            temperature=0.7,
            num_return_sequences=2
        )
        
        for i, code in enumerate(generated_codes, 1):
            print(f"\nGenerated Code {i}:")
            print(code)
        
        # Demonstrate code improvement
        if generated_codes:
            improved = generator.improve_code(
                generated_codes[0],
                improvement_type="optimization"
            )
            print("\nOptimized Version:")
            print(improved["improved"])

if __name__ == "__main__":
    main()

El código implementa una clase CodeGenerator que utiliza GPT-4 para la generación y mejora de código. Estos son los componentes principales:

Inicialización de Clase

Se inicializa con el modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, recurriendo a CPU si es necesario

Métodos Principales

generate_code():
- Recibe parámetros como prompt, longitud máxima, temperatura y número de secuencias
- Da formato al prompt para la generación de código
- Utiliza el modelo para generar secuencias de código
- Devuelve múltiples variaciones de código basadas en los parámetros de entrada
improve_code():
- Recibe código existente y un tipo de mejora (por ejemplo, "optimización")
- Genera una versión mejorada del código de entrada
- Devuelve tanto la versión original como la mejorada

Demostración de la Función Principal

Muestra el uso práctico con ejemplos de prompts:
- Implementación de secuencia Fibonacci
- Implementación de árbol binario de búsqueda
Genera múltiples versiones de código para cada prompt
Demuestra la funcionalidad de mejora de código

Características Principales

Control de temperatura para la creatividad en la generación
Soporte para múltiples secuencias de retorno
Capacidades de optimización de código
Manejo de errores integrado y aceleración por GPU

Traducción y Parafraseo

Variaciones de estilo: Transformar texto entre formas formales, casuales, técnicas o simplificadas
- Adaptar documentos académicos para el público general
- Convertir documentación técnica en guías amigables para el usuario
Ajustes de tono: Modificar la resonancia emocional del contenido
- Cambiar entre tonos profesionales, amigables o neutrales
- Adaptar contenido de marketing para diferentes audiencias
Optimización de longitud: Expandir o condensar contenido mientras se preserva la información clave
- Crear explicaciones detalladas a partir de puntos concisos
- Resumir documentos extensos en resúmenes breves

Estas capacidades sofisticadas sirven para diversas aplicaciones:

Localización de contenido global para mercados internacionales
Asistencia en escritura académica para trabajos de investigación y tesis
Comunicación intercultural en organizaciones multinacionales
Adaptación de contenido para diferentes plataformas y audiencias
Desarrollo de material educativo para diferentes niveles de comprensión

Ejemplo de Código: Traducción y Parafraseo con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict

class TextProcessor:
    def __init__(self, model_name: str = "openai/gpt-4"):
        """
        Initializes the model and tokenizer for GPT-4.

        Parameters:
            model_name (str): The name of the GPT-4 model.
        """
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_response(self, prompt: str, max_length: int = 512, temperature: float = 0.7) -> str:
        """
        Generates a response using GPT-4 for a given prompt.

        Parameters:
            prompt (str): The input prompt for the model.
            max_length (int): Maximum length of the generated response.
            temperature (float): Sampling temperature for diversity in output.

        Returns:
            str: The generated response.
        """
        inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=1024, truncation=True).to(self.device)
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=0.95,
                pad_token_id=self.tokenizer.eos_token_id,
                early_stopping=True
            )
        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

    def translate_text(self, text: str, target_language: str) -> Dict[str, str]:
        """
        Translates text into the specified language.

        Parameters:
            text (str): The text to be translated.
            target_language (str): The language to translate the text into (e.g., "French", "Spanish").

        Returns:
            Dict[str, str]: A dictionary containing the original text and the translated text.
        """
        prompt = f"Translate the following text into {target_language}:\n\n{text}"
        response = self.generate_response(prompt)
        translation = response.split(f"into {target_language}:")[-1].strip()
        return {"original_text": text, "translated_text": translation}

    def paraphrase_text(self, text: str) -> Dict[str, str]:
        """
        Paraphrases the given text.

        Parameters:
            text (str): The text to be paraphrased.

        Returns:
            Dict[str, str]: A dictionary containing the original text and the paraphrased version.
        """
        prompt = f"Paraphrase the following text:\n\n{text}"
        response = self.generate_response(prompt)
        paraphrase = response.split("Paraphrase:")[-1].strip()
        return {"original_text": text, "paraphrased_text": paraphrase}


def main():
    # Initialize text processor
    processor = TextProcessor()

    # Example input text
    text = "Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient."

    # Translation example
    translated = processor.translate_text(text, "Spanish")
    print("\nTranslation:")
    print(f"Original: {translated['original_text']}")
    print(f"Translated: {translated['translated_text']}")

    # Paraphrasing example
    paraphrased = processor.paraphrase_text(text)
    print("\nParaphrasing:")
    print(f"Original: {paraphrased['original_text']}")
    print(f"Paraphrased: {paraphrased['paraphrased_text']}")

if __name__ == "__main__":
    main()

Desglose del Código

Inicialización (clase TextProcessor):
- Configuración del Modelo y Tokenizador:
  - Utiliza AutoTokenizer y AutoModelForCausalLM para cargar GPT-4.
  - Mueve el modelo al dispositivo apropiado (cuda si hay GPU disponible, sino cpu).
- ¿Por qué AutoTokenizer y AutoModelForCausalLM?
  - Estas clases permiten compatibilidad con una amplia gama de modelos, incluyendo GPT-4.
Funciones Principales:
- generate_response:
  - Codifica el prompt y genera una respuesta usando GPT-4.
  - Parámetros configurables incluyen:
    - max_length: Controla la longitud de la salida.
    - temperature: Determina la diversidad del texto generado (valores más bajos producen salidas más deterministas).
- translate_text:
  - Construye un prompt que instruye a GPT-4 para traducir el texto dado al idioma objetivo.
  - Extrae el texto traducido de la respuesta.
- paraphrase_text:
  - Construye un prompt para parafrasear el texto de entrada.
  - Extrae el resultado parafraseado de la salida.
Flujo de Ejemplo (función main):
- Proporciona texto de ejemplo y demuestra:
  - Traducción al español.
  - Parafraseo del texto de entrada.
Ingeniería de Prompts:
- Los prompts están diseñados con instrucciones específicas (Traduce el siguiente texto..., Parafrasea el siguiente texto...) para guiar a GPT-4 en la ejecución precisa de tareas.

Ejemplo de Salida

Traducción:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Translated: La inteligencia artificial está revolucionando la forma en que vivimos y trabajamos, haciendo muchas tareas más eficientes.

Parafraseo:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Paraphrased: AI is transforming our lives and work processes, streamlining numerous tasks for greater efficiency.

Puntos Clave para la Traducción y Parafraseo con GPT-4

Prompts de Alta Calidad:
- Proporcionar instrucciones claras y específicas a GPT-4 para obtener mejores resultados.
Soporte de Idiomas Dinámico:
- Se puede traducir a múltiples idiomas cambiando target_language.
Compatibilidad de Dispositivos:
- Utiliza automáticamente la GPU si está disponible, asegurando un procesamiento más rápido.
Manejo de Errores (Mejora Opcional):
- Agregar validación para el texto de entrada y manejar casos donde la respuesta puede no coincidir con el formato esperado.

Esta implementación es modular, permitiendo extensiones para otras tareas de PLN como resumen o análisis de sentimientos.

5.2.6 Limitaciones de GPT

Contexto Unidireccional

Sesgos en los Datos de Entrenamiento

La manifestación de estos sesgos se puede observar de varias maneras:

Lenguaje y Asociaciones de Palabras: El modelo puede emparejar consistentemente ciertos adjetivos o descripciones con grupos particulares
Atribución de Roles Profesionales: Al generar texto sobre carreras, el modelo podría predeterminar pronombres específicos de género para ciertas profesiones
Contexto Cultural: El modelo podría priorizar o entender mejor las referencias de culturas dominantes mientras malinterpreta o subrepresenta otras
Suposiciones Socioeconómicas: El contenido generado podría reflejar suposiciones sobre clase social, educación o estatus económico

Bucles de Retroalimentación: El contenido generado podría usarse para entrenar futuros modelos, reforzando sesgos existentes
Efectos de Escala: A medida que las salidas del modelo se utilizan a escala, el contenido sesgado puede alcanzar e influir en audiencias más grandes
Toma de Decisiones Automatizada: Cuando se integra en sistemas automatizados, estos sesgos pueden afectar decisiones y resultados del mundo real

Intensidad de Recursos

La fase de despliegue presenta sus propios desafíos. Estos modelos requieren:

RAM sustancial: A menudo necesitando cientos de gigabytes de memoria para cargar el modelo completo
GPUs de alta gama: Aceleración de hardware especializada para una inferencia eficiente
Almacenamiento significativo: Los modelos pueden tener cientos de gigabytes de tamaño
Infraestructura robusta: Incluyendo sistemas de respaldo y medidas de redundanciaEstos requisitos crean varios efectos en cascada:
Barreras económicas: Los altos costos operativos hacen que estos modelos sean inaccesibles para muchas organizaciones pequeñas e investigadores
Limitaciones geográficas: No todas las regiones tienen acceso a la infraestructura computacional necesaria
Preocupaciones ambientales: La huella de carbono de ejecutar estos modelos a escala plantea serias cuestiones de sostenibilidadEsta intensidad de recursos ha generado importantes discusiones en la comunidad de IA sobre la búsqueda de formas para desarrollar modelos más eficientes y la exploración de técnicas como la compresión de modelos y la destilación de conocimiento para crear versiones más pequeñas y accesibles mientras se mantiene el rendimiento.

5.2.7 Puntos Clave

Los modelos GPT han revolucionado la generación de texto mediante el uso de su arquitectura autorregresiva - lo que significa que predicen cada palabra basándose en las palabras anteriores. Esto les permite crear texto similar al humano que fluye naturalmente y mantiene el contexto a lo largo del texto. Los modelos logran esto procesando el texto token por token, utilizando sofisticados mecanismos de atención para comprender las relaciones entre palabras y frases.
La arquitectura centrada en el decodificador de GPT representa una elección de diseño estratégica que optimiza el modelo para tareas generativas. A diferencia de los modelos codificador-decodificador que necesitan procesar tanto la entrada como la salida, el enfoque de solo decodificador de GPT agiliza el proceso de generación. Esto lo hace particularmente efectivo para tareas como la creación de contenido, escritura de historias y generación de código, donde el objetivo es producir nuevo texto coherente basado en indicaciones dadas.
El notable viaje desde GPT-1 hasta GPT-4 ha demostrado que aumentar el tamaño del modelo y los datos de entrenamiento puede llevar a mejoras dramáticas en la capacidad. GPT-1 comenzó con 117 millones de parámetros, mientras que GPT-3 escaló hasta 175 mil millones de parámetros. Este aumento masivo, combinado con la exposición a muchos más datos de entrenamiento, resultó en mejoras significativas en el rendimiento de tareas, comprensión del contexto y capacidad para seguir instrucciones complejas. Este patrón de escalamiento ha influido en todo el campo de la IA, sugiriendo que los modelos más grandes, cuando están correctamente entrenados, pueden exhibir comportamientos cada vez más sofisticados.
A pesar de sus impresionantes capacidades, los modelos GPT enfrentan limitaciones importantes. Su naturaleza unidireccional significa que solo pueden considerar las palabras anteriores al generar texto, potencialmente perdiendo contexto futuro importante. Además, los recursos computacionales requeridos para ejecutar estos modelos son sustanciales, planteando cuestiones sobre accesibilidad e impacto ambiental. Estos desafíos señalan oportunidades para investigación futura en el desarrollo de arquitecturas y métodos de entrenamiento más eficientes.

5.2 GPT y Transformers Autorregresivos

Esta arquitectura sofisticada permite que los modelos GPT sobresalgan en una amplia gama de aplicaciones:

Generación de Texto: Creación de artículos, historias y escritura creativa similares a los humanos
Resumen: Condensación de documentos largos manteniendo la información clave
Traducción: Conversión de texto entre idiomas preservando el significado
Sistemas de Diálogo: Participación en conversaciones naturales y provisión de respuestas contextualmente apropiadas

5.2.1 Conceptos Clave de GPT

1. Modelado Autorregresivo

Entrada: "El clima hoy está"
Salida: "soleado con probabilidad de lluvia."

Ejemplo de Código: Implementación de Generación de Texto Autorregresiva

import torch
import torch.nn as nn
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import numpy as np

class AutoregressiveGenerator:
    def __init__(self, model_name='gpt2'):
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.model.eval()
        
    def generate_text(self, prompt, max_length=100, temperature=0.7, top_k=50):
        # Encode the input prompt
        input_ids = self.tokenizer.encode(prompt, return_tensors='pt')
        
        # Initialize sequence with input prompt
        current_sequence = input_ids
        
        for _ in range(max_length):
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(current_sequence)
                next_token_logits = outputs.logits[:, -1, :]
            
            # Apply temperature scaling
            next_token_logits = next_token_logits / temperature
            
            # Apply top-k filtering
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            
            # Convert to probabilities
            probs = torch.softmax(top_k_logits, dim=-1)
            
            # Sample next token
            next_token_id = top_k_indices[0][torch.multinomial(probs[0], 1)]
            
            # Check for end of sequence
            if next_token_id == self.tokenizer.eos_token_id:
                break
            
            # Append new token to sequence
            current_sequence = torch.cat([current_sequence, 
                                       next_token_id.unsqueeze(0).unsqueeze(0)], dim=1)
        
        # Decode the generated sequence
        generated_text = self.tokenizer.decode(current_sequence[0], 
                                             skip_special_tokens=True)
        return generated_text

    def interactive_generation(self, initial_prompt):
        print(f"Initial prompt: {initial_prompt}")
        generated = self.generate_text(initial_prompt)
        print(f"Generated text: {generated}")
        return generated

# Example usage
def demonstrate_autoregressive_generation():
    generator = AutoregressiveGenerator()
    
    prompts = [
        "The artificial intelligence revolution will",
        "In the next decade, technology will",
        "The future of autonomous vehicles is"
    ]
    
    for prompt in prompts:
        print("\n" + "="*50)
        generator.interactive_generation(prompt)
        
if __name__ == "__main__":
    demonstrate_autoregressive_generation()

Desglose del Código:

Inicialización y Configuración:
- Crea una clase AutoregressiveGenerator que encapsula la funcionalidad de GPT-2
- Carga el modelo pre-entrenado y el tokenizador
- Establece el modelo en modo de evaluación para inferencia
Proceso de Generación de Texto:
- Implementa la generación token por token utilizando el enfoque autorregresivo
- Utiliza el escalado de temperatura para controlar la aleatoriedad en la generación
- Aplica filtrado top-k para seleccionar entre los tokens más probables siguientes
Características Principales:
- El parámetro de temperatura controla el equilibrio entre creatividad y consistencia
- El filtrado top-k ayuda a mantener una generación de texto coherente y enfocada
- Maneja la detección de fin de secuencia y la decodificación apropiada del texto

2. Paradigma de Pre-entrenamiento y Ajuste Fino

Similar a BERT, GPT sigue un proceso de entrenamiento integral en dos pasos que le permite tanto aprender patrones generales del lenguaje como especializarse en tareas específicas:

Procesamiento de miles de millones de tokens de diversas fuentes:
- Contenido web incluyendo artículos, foros y documentos académicos
- Obras literarias de varios géneros y períodos
- Documentación técnica y textos especializados
Aprendizaje de relaciones contextuales entre palabras:
- Comprensión de similitudes y diferencias semánticas
- Reconocimiento de expresiones idiomáticas y figuras retóricas
- Comprensión de significados de palabras dependientes del contexto
Desarrollo de una comprensión de la estructura del lenguaje:
- Dominio de reglas gramaticales y patrones sintácticos
- Aprendizaje de organización de documentos y párrafos
- Comprensión del flujo narrativo y coherencia

Entrenamiento con conjuntos de datos cuidadosamente curados y específicos para tareas:
- Uso de datos de alta calidad y validados que representan la tarea objetivo
- Asegurar ejemplos diversos para prevenir el sobreajuste
- Incorporación de terminología y convenciones específicas del dominio
Ajuste de parámetros del modelo para un rendimiento óptimo en tareas específicas:
- Ajuste de tasas de aprendizaje para prevenir el olvido catastrófico
- Implementación de parada temprana para lograr el mejor rendimiento
- Equilibrio entre la adaptación del modelo y la preservación de capacidades generales
Los ejemplos incluyen:
- Resumen: Entrenamiento con pares de documento-resumen
- Respuesta a preguntas: Uso de conjuntos de datos de preguntas y respuestas con variada complejidad
- Traducción: Ajuste fino con texto paralelo en múltiples idiomas
- Generación de contenido: Adaptación a estilos o formatos de escritura específicos

Ejemplo de código usando Entrenamiento GPT-4

import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForCausalLM
from torch.utils.data import Dataset, DataLoader

# Custom dataset for pre-training and fine-tuning
class TextDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=512):
        self.encodings = tokenizer(
            texts,
            truncation=True,
            padding="max_length",
            max_length=max_length,
            return_tensors="pt"
        )
    
    def __getitem__(self, idx):
        return {key: val[idx] for key, val in self.encodings.items()}
    
    def __len__(self):
        return len(self.encodings["input_ids"])

# Trainer class for GPT-4
class GPT4Trainer:
    def __init__(self, model_name="openai/gpt-4"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name).to(self.device)
    
    def train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5, task="pre-training"):
        dataset = TextDataset(texts, self.tokenizer)
        loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

        optimizer = torch.optim.AdamW(self.model.parameters(), lr=learning_rate)
        self.model.train()
        
        for epoch in range(epochs):
            total_loss = 0
            for batch in loader:
                input_ids = batch["input_ids"].to(self.device)
                attention_mask = batch["attention_mask"].to(self.device)
                
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=input_ids
                )
                loss = outputs.loss
                
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                
                total_loss += loss.item()
            
            avg_loss = total_loss / len(loader)
            print(f"{task.capitalize()} Epoch {epoch+1}/{epochs}, Average Loss: {avg_loss:.4f}")
    
    def pre_train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5):
        self.train(texts, batch_size, epochs, learning_rate, task="pre-training")
    
    def fine_tune(self, texts, batch_size=2, epochs=2, learning_rate=5e-6):
        self.train(texts, batch_size, epochs, learning_rate, task="fine-tuning")

# Example usage
def main():
    trainer = GPT4Trainer()

    # Pre-training data
    pre_training_texts = [
        "Artificial intelligence is a rapidly evolving field.",
        "Advancements in machine learning are reshaping industries.",
    ]

    # Fine-tuning data
    fine_tuning_texts = [
        "Transformer models use self-attention mechanisms.",
        "Backpropagation updates the weights of neural networks.",
    ]

    # Perform pre-training
    print("Starting pre-training...")
    trainer.pre_train(pre_training_texts)

    # Perform fine-tuning
    print("\nStarting fine-tuning...")
    trainer.fine_tune(fine_tuning_texts)

if __name__ == "__main__":
    main()

1. Clase TextDataset

Esta clase personalizada de conjunto de datos maneja el procesamiento de texto:

Tokeniza los textos de entrada usando el tokenizador del modelo
Maneja el relleno y truncamiento para asegurar longitudes uniformes de secuencia
Proporciona funcionalidad estándar de conjunto de datos PyTorch para la carga de datos

2. Clase GPT4Trainer

La clase principal de entrenamiento que gestiona el proceso de entrenamiento del modelo:

Inicializa el modelo GPT-4 y el tokenizador
Gestiona la asignación de dispositivos (CPU/GPU)
Proporciona métodos separados para pre-entrenamiento y ajuste fino
Implementa el bucle de entrenamiento con cálculo de pérdida y optimización

3. Proceso de Entrenamiento

El código demuestra tanto las etapas de pre-entrenamiento como de ajuste fino:

El pre-entrenamiento utiliza textos generales de IA y aprendizaje automático
El ajuste fino utiliza contenido técnico más específico sobre transformers y redes neuronales
Ambos procesos rastrean y muestran la pérdida promedio por época

4. Características Principales

La implementación incluye varias características importantes de entrenamiento:

Utiliza el optimizador AdamW para actualizaciones de pesos
Implementa diferentes tasas de aprendizaje para pre-entrenamiento y ajuste fino
Admite procesamiento por lotes para un entrenamiento eficiente
Incluye enmascaramiento de atención para un entrenamiento adecuado del transformer

Ejemplo de Salida

Starting pre-training...
Pre-training Epoch 1/3, Average Loss: 0.3456
Pre-training Epoch 2/3, Average Loss: 0.3012
Pre-training Epoch 3/3, Average Loss: 0.2849

Starting fine-tuning...
Fine-tuning Epoch 1/2, Average Loss: 0.1287
Fine-tuning Epoch 2/2, Average Loss: 0.1145

Este código proporciona una estructura limpia, modular y reutilizable para el pre-entrenamiento y ajuste fino de OpenAI GPT-4.

3. Transformer Solo-Decodificador

Esta naturaleza unidireccional, aunque limitante en algunos aspectos, hace que GPT sea altamente eficiente para tareas que requieren generar continuaciones contextualmente apropiadas de texto.

Ejemplo de Código: Implementación del Transformer Solo-Decodificador

import torch
import torch.nn as nn
import math

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.d_model = d_model
        self.num_heads = num_heads
        self.head_dim = d_model // num_heads
        
        self.q_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)
        
    def forward(self, x, mask=None):
        batch_size = x.size(0)
        
        # Linear transformations
        q = self.q_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        k = self.k_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        v = self.v_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        
        # Transpose for attention computation
        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)
        
        # Scaled dot-product attention
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Apply mask for decoder self-attention
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        attention_weights = torch.softmax(scores, dim=-1)
        attention = torch.matmul(attention_weights, v)
        
        # Reshape and apply output transformation
        attention = attention.transpose(1, 2).contiguous()
        attention = attention.view(batch_size, -1, self.d_model)
        return self.out(attention)

class DecoderBlock(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super().__init__()
        self.self_attention = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.ReLU(),
            nn.Linear(d_ff, d_model)
        )
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # Self-attention
        attn_output = self.self_attention(x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        # Feed forward
        ff_output = self.ff(x)
        x = self.norm2(x + self.dropout(ff_output))
        return x

class GPTModel(nn.Module):
    def __init__(self, vocab_size, d_model, num_layers, num_heads, d_ff, max_seq_len, dropout=0.1):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(max_seq_len, d_model)
        
        self.decoder_layers = nn.ModuleList([
            DecoderBlock(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.dropout = nn.Dropout(dropout)
        self.output_layer = nn.Linear(d_model, vocab_size)
        
    def generate_mask(self, size):
        mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
        return ~mask
        
    def forward(self, x):
        seq_len = x.size(1)
        positions = torch.arange(seq_len, device=x.device).unsqueeze(0)
        
        # Embeddings
        token_emb = self.token_embedding(x)
        pos_emb = self.position_embedding(positions)
        x = self.dropout(token_emb + pos_emb)
        
        # Create attention mask
        mask = self.generate_mask(seq_len).to(x.device)
        
        # Apply decoder layers
        for layer in self.decoder_layers:
            x = layer(x, mask)
            
        return self.output_layer(x)

# Example usage
def train_gpt():
    # Model parameters
    vocab_size = 50000
    d_model = 512
    num_layers = 6
    num_heads = 8
    d_ff = 2048
    max_seq_len = 1024
    
    # Initialize model
    model = GPTModel(
        vocab_size=vocab_size,
        d_model=d_model,
        num_layers=num_layers,
        num_heads=num_heads,
        d_ff=d_ff,
        max_seq_len=max_seq_len
    )
    
    return model

Desglose del Código:

Clase MultiHeadAttention:
- Implementa atención de producto escalar con múltiples cabezales
- Divide la entrada en proyecciones de consulta, clave y valor
- Aplica máscaras de atención para generación autorregresiva
Clase DecoderBlock:
- Contiene capas de auto-atención y alimentación hacia adelante
- Implementa conexiones residuales y normalización de capas
- Aplica dropout para regularización
Clase GPTModel:
- Combina incrustaciones de tokens y posicionales
- Apila múltiples capas de decodificador
- Implementa enmascaramiento causal para predicción autorregresiva

Características Principales:

Generación autorregresiva mediante enmascaramiento causal
Arquitectura escalable que admite diferentes tamaños de modelo
Implementación eficiente de mecanismos de atención

5.2.2 La Evolución de los Modelos GPT

GPT-1 (2018):

Ejemplo de Código: Implementación de GPT-1

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT1Config:
    def __init__(self):
        self.vocab_size = 40000
        self.n_positions = 512
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1

class LayerNorm(nn.Module):
    def __init__(self, hidden_size, eps=1e-12):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.bias = nn.Parameter(torch.zeros(hidden_size))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.weight * (x - mean) / (std + self.eps) + self.bias

class GPT1Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.dropout = config.dropout
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)

    def split_heads(self, x):
        new_x_shape = x.size()[:-1] + (self.n_head, x.size(-1) // self.n_head)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

    def forward(self, x, attention_mask=None):
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        q = self.split_heads(q)
        k = self.split_heads(k)
        v = self.split_heads(v)

        attn_weights = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(v.size(-1)))
        if attention_mask is not None:
            attn_weights = attn_weights.masked_fill(attention_mask[:, None, None, :] == 0, float('-inf'))
        
        attn_weights = F.softmax(attn_weights, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        attn_output = torch.matmul(attn_weights, v)
        
        attn_output = attn_output.permute(0, 2, 1, 3).contiguous()
        attn_output = attn_output.view(*attn_output.size()[:-2], self.n_embd)
        
        attn_output = self.c_proj(attn_output)
        attn_output = self.resid_dropout(attn_output)
        return attn_output

class GPT1Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.ln_1 = LayerNorm(config.n_embd)
        self.attn = GPT1Attention(config)
        self.ln_2 = LayerNorm(config.n_embd)
        self.mlp = nn.Sequential(
            nn.Linear(config.n_embd, 4 * config.n_embd),
            nn.GELU(),
            nn.Linear(4 * config.n_embd, config.n_embd),
            nn.Dropout(config.dropout),
        )

    def forward(self, x, attention_mask=None):
        attn_output = self.attn(self.ln_1(x), attention_mask)
        x = x + attn_output
        mlp_output = self.mlp(self.ln_2(x))
        x = x + mlp_output
        return x

class GPT1Model(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.wte = nn.Embedding(config.vocab_size, config.n_embd)
        self.wpe = nn.Embedding(config.n_positions, config.n_embd)
        self.drop = nn.Dropout(config.dropout)
        self.blocks = nn.ModuleList([GPT1Block(config) for _ in range(config.n_layer)])
        self.ln_f = LayerNorm(config.n_embd)

    def forward(self, input_ids, position_ids=None, attention_mask=None):
        if position_ids is None:
            position_ids = torch.arange(0, input_ids.size(-1), dtype=torch.long, device=input_ids.device)
            position_ids = position_ids.unsqueeze(0).expand_as(input_ids)

        inputs_embeds = self.wte(input_ids)
        position_embeds = self.wpe(position_ids)
        hidden_states = inputs_embeds + position_embeds
        hidden_states = self.drop(hidden_states)

        for block in self.blocks:
            hidden_states = block(hidden_states, attention_mask)

        hidden_states = self.ln_f(hidden_states)
        return hidden_states

Desglose del Código:

Configuración (GPT1Config):
- Define hiperparámetros del modelo como el tamaño del vocabulario (40,000)
- Establece la dimensión de embeddings (768), número de capas (12) y cabezales de atención (12)
Normalización de Capas (LayerNorm):
- Implementa normalización de capas personalizada para mejor estabilidad durante el entrenamiento
- Aplica normalización con parámetros aprendibles
Mecanismo de Atención (GPT1Attention):
- Implementa auto-atención multi-cabezal
- Divide las consultas, claves y valores en múltiples cabezales
- Aplica atención de producto escalar con dropout
Bloque Transformer (GPT1Block):
- Combina capas de atención y redes neuronales feed-forward
- Implementa conexiones residuales y normalización de capas
Modelo Principal (GPT1Model):
- Combina embeddings de tokens y posición
- Apila múltiples bloques transformer
- Procesa secuencias de entrada a través de toda la arquitectura del modelo

Características Principales de la Implementación:

Implementa la arquitectura original de GPT-1 con prácticas modernas de PyTorch
Incluye enmascaramiento de atención para un comportamiento autorregresivo adecuado
Utiliza funciones de activación GELU como en el paper original
Incorpora dropout para regularización en todo el modelo

GPT-2 (2019):

Transferencia de tareas zero-shot: El modelo podía realizar tareas sin ajuste fino específico
Mejor manejo de contexto: Podía procesar hasta 1024 tokens (comparado con los 512 de GPT-1)
Coherencia mejorada: Generaba texto notablemente similar al humano con mejor consistencia a largo plazo

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT2Config:
    def __init__(self):
        self.vocab_size = 50257
        self.n_positions = 1024
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5

class GPT2Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)
        
    def _attn(self, query, key, value, attention_mask=None):
        scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            scores = scores.masked_fill(attention_mask == 0, float('-inf'))
            
        attn_weights = F.softmax(scores, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        
        return torch.matmul(attn_weights, value)
        
    def forward(self, x, layer_past=None, attention_mask=None):
        qkv = self.c_attn(x)
        query, key, value = qkv.split(self.n_embd, dim=2)
        
        query = query.view(-1, query.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(-1, key.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(-1, value.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        
        attn_output = self._attn(query, key, value, attention_mask)
        attn_output = attn_output.transpose(1, 2).contiguous().view(-1, x.size(-2), self.n_embd)
        
        return self.resid_dropout(self.c_proj(attn_output))

Desglose del Código:

Configuración (GPT2Config):
- Define parámetros de modelo más grandes en comparación con GPT-1
- Aumenta la ventana de contexto a 1024 tokens
- Utiliza un vocabulario de 50,257 tokens
Mecanismo de Atención (GPT2Attention):
- Implementa atención de producto escalar mejorada
- Utiliza matrices de proyección separadas para consulta, clave y valor
- Incluye enmascaramiento de atención optimizado para mejor rendimiento

Mejoras Clave sobre GPT-1:

Mayor capacidad del modelo con eficiencia mejorada de parámetros
Mecanismo de atención mejorado con mejor escalabilidad
Embeddings posicionales más sofisticados para secuencias más largas
Esquemas mejorados de normalización de capas e inicialización

GPT-3 (2020):

Generación de Texto: Produciendo texto similar al humano con coherencia excepcional y consciencia contextual a través de varios formatos incluyendo ensayos, historias, código e incluso poesía.
Aprendizaje con Pocos Ejemplos: A diferencia de modelos anteriores, GPT-3 podía realizar nuevas tareas simplemente mostrándole algunos ejemplos en lenguaje natural, sin ningún ajuste fino o entrenamiento adicional. Esta capacidad le permitía adaptarse a nuevos contextos sobre la marcha.
Multitarea: El modelo mostró competencia en el manejo de diversas tareas como traducción, respuesta a preguntas y aritmética, todo dentro de una única arquitectura de modelo. Esta versatilidad eliminó la necesidad de ajuste fino específico por tarea, convirtiéndolo en un modelo de lenguaje verdaderamente de propósito general.

Ejemplo de Código: Implementación de GPT-3

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class GPT3Config:
    def __init__(self):
        self.vocab_size = 50400
        self.n_positions = 2048
        self.n_embd = 12288
        self.n_layer = 96
        self.n_head = 96
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5
        self.rotary_dim = 64  # For rotary position embeddings

class RotaryEmbedding(nn.Module):
    def __init__(self, dim, max_position_embeddings=2048):
        super().__init__()
        self.dim = dim
        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)

    def forward(self, positions):
        sincos = torch.einsum('i,j->ij', positions.float(), self.inv_freq)
        sin, cos = torch.sin(sincos), torch.cos(sincos)
        return torch.cat((sin, cos), dim=-1)

class GPT3Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.query = nn.Linear(config.n_embd, config.n_embd)
        self.key = nn.Linear(config.n_embd, config.n_embd)
        self.value = nn.Linear(config.n_embd, config.n_embd)
        self.out_proj = nn.Linear(config.n_embd, config.n_embd)
        
        self.rotary_emb = RotaryEmbedding(config.rotary_dim)
        self.dropout = nn.Dropout(config.dropout)
        
    def apply_rotary_pos_emb(self, x, positions):
        rot_emb = self.rotary_emb(positions)
        x_rot = x[:, :, :self.rotary_dim]
        x_pass = x[:, :, self.rotary_dim:]
        x_rot = torch.cat((-x_rot[..., 1::2], x_rot[..., ::2]), dim=-1)
        return torch.cat((x_rot * rot_emb, x_pass), dim=-1)

    def forward(self, hidden_states, attention_mask=None, position_ids=None):
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        
        if position_ids is not None:
            query = self.apply_rotary_pos_emb(query, position_ids)
            key = self.apply_rotary_pos_emb(key, position_ids)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
            
        attention_probs = F.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.n_embd)
        
        return self.out_proj(context)

Desglose del Código:

Configuración (GPT3Config):
- Parámetros del modelo significativamente más grandes en comparación con GPT-2
- Ventana de contexto extendida a 2048 tokens
- Dimensión de embedding masiva de 12,288
- 96 cabezales y capas de atención para mayor capacidad
Embeddings Posicionales Rotatorios (RotaryEmbedding):
- Implementa RoPE (Embeddings Posicionales Rotatorios)
- Proporciona mejor información posicional que los embeddings absolutos
- Permite un mejor manejo de secuencias más largas
Mecanismo de Atención Mejorado (GPT3Attention):
- Matrices de proyección separadas para consulta, clave y valor
- Implementa integración de embeddings posicionales rotatorios
- Enmascaramiento de atención avanzado y dropout para regularización

Mejoras Clave sobre GPT-2:

Capacidad del modelo dramáticamente aumentada (175B parámetros)
Codificación posicional avanzada con embeddings rotatorios
Mecanismo de atención mejorado con mejores propiedades de escalado
Estabilidad numérica mejorada mediante inicialización y normalización cuidadosa

Esta implementación demuestra la sofisticación arquitectónica de GPT-3, mostrando los componentes clave que permiten su notable rendimiento en una amplia gama de tareas de lenguaje.

GPT-4 (2023)

Excelencia en Procesamiento del Lenguaje Natural:

Comprensión y generación de lenguaje natural con matices y precisión sin precedentes
- Comprensión avanzada del contexto y sutilezas en la comunicación humana
- Capacidad mejorada para mantener la consistencia en contenido de formato largo
- Mejor comprensión de referencias culturales y expresiones idiomáticas

Capacidades Multimodales:

Procesamiento y análisis de imágenes junto con texto (capacidades multimodales)
- Puede comprender y describir información visual compleja
- Capacidad para analizar gráficos, diagramas y dibujos técnicos
- Puede generar respuestas detalladas basadas en entradas visuales

Capacidades Cognitivas Mejoradas:

Capacidades mejoradas de razonamiento y resolución de problemas
- Habilidades avanzadas de análisis lógico y deducción
- Mejor manejo de problemas matemáticos complejos
- Capacidad mejorada para desglosar problemas complejos en pasos manejables

Fiabilidad y Precisión:

Precisión factual mejorada y alucinaciones reducidas
- Recuperación de información más consistente y confiable
- Mejores capacidades de verificación de fuentes y comprobación de hechos
- Tendencia reducida a generar información falsa o engañosa

Excelencia Académica y Profesional:

Mejor rendimiento en pruebas académicas y profesionales
- Experiencia demostrada en varios campos profesionales
- Comprensión mejorada de contenido técnico y especializado
- Capacidad mejorada para proporcionar perspectivas a nivel experto

Seguimiento de Instrucciones:

Mayor capacidad para seguir instrucciones complejas
- Mejor comprensión de tareas de múltiples pasos
- Mejor adherencia a pautas y restricciones específicas
- Capacidad mejorada para mantener el contexto en interacciones prolongadas

Ejemplo de Código: Implementación de GPT-4

import torch
import torch.nn as nn
import math
from typing import Optional, Tuple

class GPT4Config:
    def __init__(self):
        self.vocab_size = 100000
        self.hidden_size = 12288
        self.num_hidden_layers = 128
        self.num_attention_heads = 96
        self.intermediate_size = 49152
        self.max_position_embeddings = 8192
        self.layer_norm_eps = 1e-5
        self.dropout = 0.1

class MultiModalEmbedding(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.text_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        self.image_projection = nn.Linear(1024, config.hidden_size)  # Assuming image features of size 1024
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.modality_type_embeddings = nn.Embedding(2, config.hidden_size)  # 0 for text, 1 for image
        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.dropout)

    def forward(self, input_ids=None, image_features=None, position_ids=None):
        if input_ids is not None:
            inputs_embeds = self.text_embeddings(input_ids)
            modality_type = torch.zeros_like(position_ids)
        else:
            inputs_embeds = self.image_projection(image_features)
            modality_type = torch.ones_like(position_ids)
        
        position_embeddings = self.position_embeddings(position_ids)
        modality_embeddings = self.modality_type_embeddings(modality_type)
        
        embeddings = inputs_embeds + position_embeddings + modality_embeddings
        embeddings = self.layernorm(embeddings)
        return self.dropout(embeddings)

class GPT4Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.num_attention_heads = config.num_attention_heads
        self.hidden_size = config.hidden_size
        self.head_dim = config.hidden_size // config.num_attention_heads
        
        self.query = nn.Linear(config.hidden_size, config.hidden_size)
        self.key = nn.Linear(config.hidden_size, config.hidden_size)
        self.value = nn.Linear(config.hidden_size, config.hidden_size)
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        
        self.dropout = nn.Dropout(config.dropout)
        self.scale = math.sqrt(self.head_dim)

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        cache: Optional[Tuple[torch.Tensor]] = None
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor]]]:
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        
        if cache is not None:
            past_key, past_value = cache
            key = torch.cat([past_key, key], dim=2)
            value = torch.cat([past_value, value], dim=2)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / self.scale
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
        
        attention_probs = nn.functional.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.hidden_size)
        
        output = self.dense(context)
        
        return output, (key, value) if cache is not None else None

Desglose del Código:

Configuración (GPT4Config):
- Vocabulario expandido a 100,000 tokens
- Tamaño oculto aumentado a 12,288
- 128 capas transformer para procesamiento más profundo
- Ventana de contexto extendida a 8,192 tokens
Embedding Multimodal:
- Maneja entradas de texto e imagen
- Implementa embeddings posicionales sofisticados
- Incluye embeddings específicos por modalidad
- Utiliza normalización de capas para entrenamiento estable
Mecanismo de Atención Mejorado (GPT4Attention):
- Implementa atención de producto punto escalado con eficiencia mejorada
- Admite estados clave/valor en caché para inferencia más rápida
- Incluye enmascaramiento de atención para flujo de información controlado
- Operaciones matriciales optimizadas para mejor rendimiento

Mejoras Clave sobre GPT-3:

Soporte nativo para múltiples modalidades (texto e imágenes)
Mecanismo de caché más sofisticado para inferencia eficiente
Patrones de atención mejorados para mejores dependencias de largo alcance
Embeddings posicionales mejorados para manejo de secuencias más largas

Esta implementación muestra la arquitectura avanzada de GPT-4, particularmente sus capacidades multimodales y mecanismos de atención mejorados que permiten un mejor rendimiento en diversas tareas.

5.2.3 Cómo Funciona GPT

Fundamento Matemático

GPT calcula la probabilidad de un token x_t dados sus tokens precedentes x_1, x_2, \dots, x_{t-1} como:

P(xt∣x1,x2,…,xt−1)=softmax(Wo⋅Ht)

Donde:

H_t es el estado oculto en la posición t, calculado usando el mecanismo de atención. Este estado oculto representa la comprensión del modelo del contexto del token basado en todos los tokens anteriores en la secuencia. Se calcula a través de múltiples capas de auto-atención y redes neuronales feed-forward.
W_o es la matriz de pesos de salida aprendida que transforma el estado oculto en logits sobre el vocabulario. Esta matriz es crucial ya que mapea las representaciones internas del modelo a probabilidades reales de palabras.

5.2.4 Comparación: GPT vs. BERT

Característica	GPT	BERT
Contexto	Unidireccional (procesa el texto solo de izquierda a derecha, similar a cómo los humanos leen y escriben). Esto permite una generación eficiente de texto pero limita la comprensión del contexto bidireccional.	Bidireccional (procesa el texto en ambas direcciones simultáneamente). Esto permite una mejor comprensión del contexto y las relaciones entre palabras en una oración.
Arquitectura	Transformer de solo decodificador que se especializa en generar secuencias de texto. Utiliza auto-atención enmascarada para evitar ver tokens futuros durante el entrenamiento y la inferencia.	Transformer de solo codificador que se centra en comprender el texto de entrada. Utiliza auto-atención completa para analizar las relaciones entre todas las palabras en una secuencia.
Caso de Uso Principal	Tareas de generación de texto como escritura, traducción y creación de contenido creativo. Sobresale en producir continuaciones de texto coherentes y contextualmente relevantes.	Tareas de comprensión del lenguaje como clasificación, reconocimiento de entidades nombradas y respuesta a preguntas. Más adecuado para analizar y extraer significado de textos existentes.
Objetivo de Entrenamiento	Predicción del siguiente token: aprende a predecir la siguiente palabra en una secuencia dado las palabras anteriores. Este enfoque autorregresivo permite la generación natural de texto.	Predicción de tokens enmascarados: enmascara aleatoriamente palabras en el texto de entrada y aprende a predecirlas usando tanto el contexto izquierdo como el derecho. También realiza predicción de la siguiente oración.

Ejemplo Práctico: Usando GPT para Generación de Texto

Así es cómo usar GPT-2 mediante la biblioteca Transformers de Hugging Face para generar texto coherente.

Ejemplo de Código: Generación de Texto con GPT-2

from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch
import time

def setup_model(model_name="gpt2"):
    """Initialize the model and tokenizer"""
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name)
    return tokenizer, model

def generate_text(prompt, model, tokenizer, 
                 max_length=100,
                 num_beams=5,
                 temperature=0.7,
                 top_k=50,
                 top_p=0.95,
                 no_repeat_ngram_size=2,
                 num_return_sequences=3):
    """Generate text with various parameters for control"""
    
    # Encode the input prompt
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids
    
    # Generate with specified parameters
    start_time = time.time()
    
    outputs = model.generate(
        input_ids,
        max_length=max_length,
        num_beams=num_beams,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        no_repeat_ngram_size=no_repeat_ngram_size,
        num_return_sequences=num_return_sequences,
        pad_token_id=tokenizer.eos_token_id,
        early_stopping=True
    )
    
    generation_time = time.time() - start_time
    
    # Decode and return the generated sequences
    generated_texts = [tokenizer.decode(output, skip_special_tokens=True) 
                      for output in outputs]
    
    return generated_texts, generation_time

def main():
    # Set up model and tokenizer
    tokenizer, model = setup_model()
    
    # Example prompts
    prompts = [
        "The future of artificial intelligence is",
        "In the next decade, technology will",
        "The most important scientific discovery was"
    ]
    
    # Generate text for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        print("-" * 50)
        
        generated_texts, generation_time = generate_text(
            prompt=prompt,
            model=model,
            tokenizer=tokenizer
        )
        
        print(f"Generation Time: {generation_time:.2f} seconds")
        print("\nGenerated Sequences:")
        for i, text in enumerate(generated_texts, 1):
            print(f"\n{i}. {text}\n")

if __name__ == "__main__":
    main()

Desglose del Código:

Configuración e Importaciones:
- Utiliza la biblioteca transformers para acceder al modelo GPT-2
- Incluye torch para operaciones con tensores
- Módulo time para monitoreo de rendimiento
Funciones Principales:
- setup_model(): Inicializa el modelo y el tokenizador
- generate_text(): Función principal de generación con múltiples parámetros
- main(): Orquesta el proceso de generación con múltiples prompts
Parámetros de Generación:
- max_length: Longitud máxima del texto generado
- num_beams: Número de haces para la búsqueda por haces
- temperature: Controla la aleatoriedad (mayor = más aleatorio)
- top_k: Limita el vocabulario a los K tokens principales
- top_p: Parámetro de muestreo núcleo
- no_repeat_ngram_size: Previene la repetición de n-gramas
Características:
- Manejo de múltiples prompts
- Seguimiento del tiempo de generación
- Generación de múltiples secuencias por prompt
- Parámetros de generación configurables

5.2.5 Aplicaciones de GPT

Generación de Texto

Las capacidades creativas del modelo son extensas y matizadas:

Para historias, puede desarrollar tramas complejas con múltiples líneas argumentales, crear personajes multidimensionales con personalidades distintivas, y tejer arcos narrativos intrincados que mantienen a los lectores enganchados de principio a fin.
Para ensayos, puede construir argumentos bien razonados respaldados por ejemplos relevantes, mantener un flujo lógico entre párrafos, y adaptar su estilo de escritura para ajustarse a tonos académicos, profesionales o casuales según sea necesario.
Para poesía, puede elaborar versos que demuestran comprensión de varias formas poéticas (sonetos, haikus, verso libre), incorporar dispositivos literarios sofisticados (metáforas, aliteración, asonancia), y mantener esquemas consistentes de métrica y rima cuando se requiere.

Esta versatilidad en la generación creativa proviene de varios factores clave:

Su entrenamiento en diversas fuentes de texto, incluyendo literatura, artículos académicos y contenido en línea
Su capacidad para capturar patrones sutiles en la estructura del lenguaje a través de sus mecanismos de atención multicapa
Su comprensión contextual que le permite mantener la consistencia temática a lo largo de pasajes extensos
Su capacidad para adaptar el estilo de escritura según los prompts o ejemplos dados

Ejemplo de Código: Generación de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class GPT4TextGenerator:
    def __init__(self, model_name: str = "gpt4-base"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_with_streaming(
        self,
        prompt: str,
        max_length: int = 200,
        temperature: float = 0.8,
        top_p: float = 0.9,
        presence_penalty: float = 0.0,
        frequency_penalty: float = 0.0,
    ) -> str:
        # Encode the input prompt
        inputs = self.tokenizer.encode(prompt, return_tensors="pt").to(self.device)
        
        # Track generated tokens for penalties
        generated_tokens = []
        current_length = 0
        
        while current_length < max_length:
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(inputs)
                next_token_logits = outputs.logits[:, -1, :]
                
                # Apply temperature scaling
                next_token_logits = next_token_logits / temperature
                
                # Apply penalties
                if len(generated_tokens) > 0:
                    for token_id in set(generated_tokens):
                        # Presence penalty
                        next_token_logits[0, token_id] -= presence_penalty
                        # Frequency penalty
                        freq = generated_tokens.count(token_id)
                        next_token_logits[0, token_id] -= frequency_penalty * freq
                
                # Apply nucleus (top-p) sampling
                sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
                cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0
                indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
                next_token_logits[indices_to_remove] = float('-inf')
                
                # Sample next token
                probs = torch.softmax(next_token_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                
                # Break if we generate an EOS token
                if next_token.item() == self.tokenizer.eos_token_id:
                    break
                
                # Append the generated token
                generated_tokens.append(next_token.item())
                inputs = torch.cat([inputs, next_token.unsqueeze(0)], dim=1)
                current_length += 1
                
                # Yield intermediate results
                current_text = self.tokenizer.decode(generated_tokens)
                yield current_text

    def generate(self, prompt: str, **kwargs) -> str:
        """Non-streaming version of text generation"""
        return list(self.generate_with_streaming(prompt, **kwargs))[-1]

# Example usage
def main():
    generator = GPT4TextGenerator()
    
    prompts = [
        "Explain the concept of quantum computing in simple terms:",
        "Write a short story about a time traveler:",
        "Describe the process of photosynthesis:"
    ]
    
    for prompt in prompts:
        print(f"\nPrompt: {prompt}\n")
        print("Generating response...")
        
        # Stream the generation
        for partial_response in generator.generate_with_streaming(
            prompt,
            max_length=150,
            temperature=0.7,
            top_p=0.9,
            presence_penalty=0.2,
            frequency_penalty=0.2
        ):
            print(partial_response, end="\r")
        print("\n" + "="*50)

if __name__ == "__main__":
    main()

Desglose del Código:

Estructura de Clase:
- Implementa una clase GPT4TextGenerator para la generación organizada de texto
- Utiliza AutoTokenizer y AutoModelForCausalLM para la carga del modelo
- Compatible con inferencia en GPU y CPU
Características Avanzadas de Generación:
- Generación en streaming con declaraciones yield
- Aleatoriedad controlada por temperatura
- Muestreo de núcleo (top-p) para mejor calidad
- Penalizaciones de presencia y frecuencia para reducir la repetición
Parámetros Clave:
- max_length: Controla la longitud máxima del texto generado
- temperature: Ajusta la aleatoriedad en la selección de tokens
- top_p: Controla el umbral de muestreo de núcleo
- presence_penalty: Reduce la repetición de tokens
- frequency_penalty: Penaliza el uso frecuente de tokens
Detalles de Implementación:
- Generación eficiente de tokens con torch.no_grad()
- Aplicación dinámica de penalizaciones para mejor calidad de texto
- Transmisión en tiempo real del texto generado
- Manejo flexible de prompts con ejemplos de uso

Sistemas de Diálogo

Procesa entradas de lenguaje natural mediante la comprensión de la intención del usuario, el contexto y los matices en la comunicación a través de:
- Análisis semántico de mensajes del usuario para captar el significado subyacente
- Reconocimiento de subtextos emocionales y sentimientos
- Interpretación de coloquialismos y expresiones idiomáticas
Genera respuestas similares a las humanas que mantienen el flujo de conversación y el contexto a través de múltiples intercambios mediante:
- Seguimiento del historial de conversación para mantener un diálogo coherente
- Uso de referencias apropiadas a mensajes anteriores
- Aseguramiento de la progresión lógica de ideas y temas
Maneja diversos escenarios de conversación, desde servicio al cliente hasta tutoría educativa, a través de:
- Bases de conocimiento especializadas para diferentes dominios
- Estrategias de respuesta adaptativas basadas en el tipo de conversación
- Integración con marcos de trabajo orientados a tareas específicas
Adapta el tono y estilo según el contexto de la conversación y las preferencias del usuario mediante:
- Reconocimiento de situaciones formales vs informales
- Ajuste de la complejidad técnica según la experiencia del usuario
- Correspondencia de resonancia emocional cuando es apropiado

Ejemplo de Código: Sistemas de Diálogo con GPT-2

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict
from dataclasses import dataclass
from datetime import datetime

@dataclass
class DialogueContext:
    conversation_history: List[Dict[str, str]]
    max_history: int = 5
    system_prompt: str = "You are a helpful AI assistant."

class DialogueSystem:
    def __init__(self, model_name: str = "gpt2"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def format_dialogue(self, context: DialogueContext) -> str:
        formatted = context.system_prompt + "\n\n"
        for message in context.conversation_history[-context.max_history:]:
            role = message["role"]
            content = message["content"]
            formatted += f"{role}: {content}\n"
        return formatted
    
    def generate_response(
        self,
        context: DialogueContext,
        max_length: int = 100,
        temperature: float = 0.7,
        top_p: float = 0.9
    ) -> str:
        # Format the conversation history
        dialogue_text = self.format_dialogue(context)
        dialogue_text += "Assistant: "
        
        # Encode and generate
        inputs = self.tokenizer.encode(dialogue_text, return_tensors="pt").to(self.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=inputs.shape[1] + max_length,
                temperature=temperature,
                top_p=top_p,
                pad_token_id=self.tokenizer.eos_token_id,
                num_return_sequences=1
            )
        
        response = self.tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)
        return response.strip()

def main():
    # Initialize the dialogue system
    dialogue_system = DialogueSystem()
    
    # Create a conversation context
    context = DialogueContext(
        conversation_history=[],
        max_history=5,
        system_prompt="You are a helpful AI assistant specialized in technical support."
    )
    
    # Example conversation
    user_messages = [
        "I'm having trouble with my laptop. It's running very slowly.",
        "Yes, it's a Windows laptop and it's about 2 years old.",
        "I haven't cleaned up any files recently.",
    ]
    
    for message in user_messages:
        # Add user message to history
        context.conversation_history.append({
            "role": "User",
            "content": message,
            "timestamp": datetime.now().isoformat()
        })
        
        # Generate and add assistant response
        response = dialogue_system.generate_response(context)
        context.conversation_history.append({
            "role": "Assistant",
            "content": response,
            "timestamp": datetime.now().isoformat()
        })
        
        # Print the exchange
        print(f"\nUser: {message}")
        print(f"Assistant: {response}")

if __name__ == "__main__":
    main()

Desglose del Código:

Componentes Principales:
- Clase DialogueContext para gestionar el estado de la conversación
- Clase DialogueSystem para manejar las interacciones del modelo
- Gestión eficiente del historial de conversación con límite max_history
Características Principales:
- Mantiene el contexto de la conversación a través de múltiples intercambios
- Implementa muestreo por temperatura y top-p para la generación de respuestas
- Incluye seguimiento de marca temporal para cada mensaje
- Admite prompts del sistema para la definición de roles
Detalles de Implementación:
- Utiliza la biblioteca transformers para el manejo del modelo
- Implementa generación eficiente de respuestas con torch.no_grad()
- Formatea el historial de diálogo para respuestas contextualizadas
- Maneja mensajes tanto del usuario como del asistente en un formato estructurado
Características Avanzadas:
- Longitud configurable del historial de conversación
- Personalización flexible del prompt del sistema
- Almacenamiento estructurado de mensajes con marcas temporales
- Soporte para aceleración GPU cuando está disponible

Resumen

Procesamiento eficiente de información mediante la condensación de textos extensos en resúmenes digeribles:
- Reduce el tiempo de lectura hasta en un 75% mientras mantiene la integridad del mensaje principal
- Identifica y resalta automáticamente los puntos más significativos
- Utiliza algoritmos avanzados para determinar la relevancia y prioridad de la información
Extracción de puntos cruciales manteniendo el contexto y significado:
- Emplea análisis semántico sofisticado para entender las relaciones entre ideas
- Preserva el contexto crítico que da significado a la información extraída
- Asegura el flujo lógico y la coherencia en el contenido resumido
Múltiples estilos de resumen:
- Resúmenes extractivos que extraen oraciones clave directamente de la fuente:
  - Mantiene la voz original del autor y la redacción precisa
  - Ideal para documentos técnicos o legales donde la fraseología exacta es crucial
- Resúmenes abstractivos que reformulan el contenido con nuevas palabras:
  - Crea narrativas más naturales y fluidas
  - Maneja mejor la redundancia y la síntesis de información
- Resúmenes de longitud controlada adaptables a diferentes necesidades:
  - Abarca desde breves resúmenes ejecutivos hasta descripciones detalladas
  - Ratios de compresión personalizables según la longitud objetivo

Ejemplo de Código: Resumen de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict, Optional

class TextSummarizer:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def generate_summary(
        self,
        text: str,
        max_length: int = 150,
        min_length: Optional[int] = None,
        temperature: float = 0.7,
        num_beams: int = 4,
    ) -> Dict[str, str]:
        # Prepare the prompt
        prompt = f"Summarize the following text:\n\n{text}\n\nSummary:"
        
        # Encode the input text
        inputs = self.tokenizer.encode(
            prompt,
            return_tensors="pt",
            max_length=1024,
            truncation=True
        ).to(self.device)
        
        # Generate summary
        with torch.no_grad():
            summary_ids = self.model.generate(
                inputs,
                max_length=max_length,
                min_length=min_length or 50,
                num_beams=num_beams,
                temperature=temperature,
                no_repeat_ngram_size=3,
                length_penalty=2.0,
                early_stopping=True
            )
        
        # Decode and format the summary
        summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)
        
        # Extract the summary part
        summary_text = summary.split("Summary:")[-1].strip()
        
        return {
            "original_text": text,
            "summary": summary_text,
            "compression_ratio": len(summary_text.split()) / len(text.split())
        }

def main():
    # Initialize summarizer
    summarizer = TextSummarizer()
    
    # Example text to summarize
    sample_text = """
    Artificial intelligence has transformed numerous industries, from healthcare 
    to transportation. Machine learning algorithms now power everything from 
    recommendation systems to autonomous vehicles. Deep learning, a subset of AI, 
    has particularly excelled in pattern recognition tasks, enabling breakthroughs 
    in image and speech recognition. As these technologies continue to evolve, 
    they raise important questions about ethics, privacy, and the future of work.
    """
    
    # Generate summaries with different parameters
    summaries = []
    for temp in [0.3, 0.7]:
        for length in [100, 150]:
            result = summarizer.generate_summary(
                sample_text,
                max_length=length,
                temperature=temp
            )
            summaries.append(result)
    
    # Print results
    for i, summary in enumerate(summaries, 1):
        print(f"\nSummary {i}:")
        print(f"Text: {summary['summary']}")
        print(f"Compression Ratio: {summary['compression_ratio']:.2f}")

if __name__ == "__main__":
    main()

Como puedes ver, este código implementa un sistema de resumen de texto usando GPT-4. Aquí hay un desglose completo de sus componentes principales:

Clase TextSummarizer:

Se inicializa con un modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, sino recurre a CPU
Utiliza la biblioteca transformers para el manejo del modelo

Método generate_summary:

Acepta parámetros de entrada:
- text: El contenido a resumir
- max_length: Longitud máxima del resumen (predeterminado 150)
- min_length: Longitud mínima del resumen (opcional)
- temperature: Controla la aleatoriedad (predeterminado 0.7)
- num_beams: Número de haces para la búsqueda por haces (predeterminado 4)

Características Principales:

Utiliza búsqueda por haces para resúmenes de mejor calidad
Implementa no_repeat_ngram para prevenir repeticiones
Incluye penalización por longitud y parada temprana
Calcula la relación de compresión entre el texto original y el resumido

Función Principal:

Demuestra el uso con un texto de ejemplo relacionado con IA
Genera múltiples resúmenes con diferentes parámetros:
- Prueba dos valores de temperatura (0.3 y 0.7)
- Prueba dos configuraciones de longitud (100 y 150)

Ejemplo de Salida

Summary 1:
Text: Artificial intelligence has revolutionized industries, with machine learning driving innovation in healthcare and transportation.
Compression Ratio: 0.30

Summary 2:
Text: AI advancements in machine learning and deep learning are enabling breakthroughs while raising ethical concerns.
Compression Ratio: 0.27

Generación de Código

Completación Inteligente de Código con Conciencia Contextual Avanzada
- Analiza el contexto del código circundante para sugerir las llamadas a funciones y nombres de variables más relevantes basados en patrones existentes
- Aprende de las convenciones de codificación específicas del proyecto para mantener un estilo consistente
- Predice y completa patrones de programación complejos considerando el contexto completo del código base
- Adapta las sugerencias según las bibliotecas importadas y las convenciones específicas del framework
Generación Sofisticada de Código Boilerplate
- Crea automáticamente plantillas de implementación estandarizadas siguiendo las mejores prácticas de la industria
- Genera estructuras completas de clases, interfaces y patrones de diseño
- Maneja tareas repetitivas de codificación eficientemente mientras mantiene la consistencia
- Soporta múltiples lenguajes de programación y frameworks con la sintaxis apropiada
Detección Integral de Errores y Mejora de la Calidad del Código
- Identifica proactivamente problemas potenciales incluyendo errores de ejecución, fugas de memoria y vulnerabilidades de seguridad
- Sugiere optimizaciones y mejoras basadas en estándares de codificación establecidos
- Proporciona explicaciones detalladas para las correcciones propuestas para ayudar a los desarrolladores a aprender
- Analiza la complejidad del código y sugiere oportunidades de refactorización para mejorar la mantenibilidad

Ejemplo de Código: Generación de Código con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class CodeGenerator:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
    
    def generate_code(
        self,
        prompt: str,
        max_length: int = 512,
        temperature: float = 0.7,
        top_p: float = 0.95,
        num_return_sequences: int = 1,
    ) -> List[str]:
        # Prepare the prompt with coding context
        formatted_prompt = f"Generate Python code for: {prompt}\n\nCode:"
        
        # Encode the prompt
        inputs = self.tokenizer.encode(
            formatted_prompt,
            return_tensors="pt",
            max_length=128,
            truncation=True
        ).to(self.device)
        
        # Generate code sequences
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=top_p,
                num_return_sequences=num_return_sequences,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                early_stopping=True
            )
        
        # Decode and format generated code
        generated_code = []
        for output in outputs:
            code = self.tokenizer.decode(output, skip_special_tokens=True)
            # Extract only the generated code part
            code = code.split("Code:")[-1].strip()
            generated_code.append(code)
            
        return generated_code
    
    def improve_code(
        self,
        code: str,
        improvement_type: str = "optimization"
    ) -> Dict[str, str]:
        # Prepare prompt for code improvement
        prompt = f"Improve the following code ({improvement_type}):\n{code}\n\nImproved code:"
        
        # Generate improved version
        improved = self.generate_code(prompt, temperature=0.5)[0]
        
        return {
            "original": code,
            "improved": improved,
            "improvement_type": improvement_type
        }

def main():
    # Initialize generator
    generator = CodeGenerator()
    
    # Example prompts
    prompts = [
        "Create a function to calculate fibonacci numbers using dynamic programming",
        "Implement a binary search tree class with insert and search methods"
    ]
    
    # Generate code for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        generated_codes = generator.generate_code(
            prompt,
            temperature=0.7,
            num_return_sequences=2
        )
        
        for i, code in enumerate(generated_codes, 1):
            print(f"\nGenerated Code {i}:")
            print(code)
        
        # Demonstrate code improvement
        if generated_codes:
            improved = generator.improve_code(
                generated_codes[0],
                improvement_type="optimization"
            )
            print("\nOptimized Version:")
            print(improved["improved"])

if __name__ == "__main__":
    main()

El código implementa una clase CodeGenerator que utiliza GPT-4 para la generación y mejora de código. Estos son los componentes principales:

Inicialización de Clase

Se inicializa con el modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, recurriendo a CPU si es necesario

Métodos Principales

generate_code():
- Recibe parámetros como prompt, longitud máxima, temperatura y número de secuencias
- Da formato al prompt para la generación de código
- Utiliza el modelo para generar secuencias de código
- Devuelve múltiples variaciones de código basadas en los parámetros de entrada
improve_code():
- Recibe código existente y un tipo de mejora (por ejemplo, "optimización")
- Genera una versión mejorada del código de entrada
- Devuelve tanto la versión original como la mejorada

Demostración de la Función Principal

Muestra el uso práctico con ejemplos de prompts:
- Implementación de secuencia Fibonacci
- Implementación de árbol binario de búsqueda
Genera múltiples versiones de código para cada prompt
Demuestra la funcionalidad de mejora de código

Características Principales

Control de temperatura para la creatividad en la generación
Soporte para múltiples secuencias de retorno
Capacidades de optimización de código
Manejo de errores integrado y aceleración por GPU

Traducción y Parafraseo

Variaciones de estilo: Transformar texto entre formas formales, casuales, técnicas o simplificadas
- Adaptar documentos académicos para el público general
- Convertir documentación técnica en guías amigables para el usuario
Ajustes de tono: Modificar la resonancia emocional del contenido
- Cambiar entre tonos profesionales, amigables o neutrales
- Adaptar contenido de marketing para diferentes audiencias
Optimización de longitud: Expandir o condensar contenido mientras se preserva la información clave
- Crear explicaciones detalladas a partir de puntos concisos
- Resumir documentos extensos en resúmenes breves

Estas capacidades sofisticadas sirven para diversas aplicaciones:

Localización de contenido global para mercados internacionales
Asistencia en escritura académica para trabajos de investigación y tesis
Comunicación intercultural en organizaciones multinacionales
Adaptación de contenido para diferentes plataformas y audiencias
Desarrollo de material educativo para diferentes niveles de comprensión

Ejemplo de Código: Traducción y Parafraseo con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict

class TextProcessor:
    def __init__(self, model_name: str = "openai/gpt-4"):
        """
        Initializes the model and tokenizer for GPT-4.

        Parameters:
            model_name (str): The name of the GPT-4 model.
        """
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_response(self, prompt: str, max_length: int = 512, temperature: float = 0.7) -> str:
        """
        Generates a response using GPT-4 for a given prompt.

        Parameters:
            prompt (str): The input prompt for the model.
            max_length (int): Maximum length of the generated response.
            temperature (float): Sampling temperature for diversity in output.

        Returns:
            str: The generated response.
        """
        inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=1024, truncation=True).to(self.device)
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=0.95,
                pad_token_id=self.tokenizer.eos_token_id,
                early_stopping=True
            )
        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

    def translate_text(self, text: str, target_language: str) -> Dict[str, str]:
        """
        Translates text into the specified language.

        Parameters:
            text (str): The text to be translated.
            target_language (str): The language to translate the text into (e.g., "French", "Spanish").

        Returns:
            Dict[str, str]: A dictionary containing the original text and the translated text.
        """
        prompt = f"Translate the following text into {target_language}:\n\n{text}"
        response = self.generate_response(prompt)
        translation = response.split(f"into {target_language}:")[-1].strip()
        return {"original_text": text, "translated_text": translation}

    def paraphrase_text(self, text: str) -> Dict[str, str]:
        """
        Paraphrases the given text.

        Parameters:
            text (str): The text to be paraphrased.

        Returns:
            Dict[str, str]: A dictionary containing the original text and the paraphrased version.
        """
        prompt = f"Paraphrase the following text:\n\n{text}"
        response = self.generate_response(prompt)
        paraphrase = response.split("Paraphrase:")[-1].strip()
        return {"original_text": text, "paraphrased_text": paraphrase}


def main():
    # Initialize text processor
    processor = TextProcessor()

    # Example input text
    text = "Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient."

    # Translation example
    translated = processor.translate_text(text, "Spanish")
    print("\nTranslation:")
    print(f"Original: {translated['original_text']}")
    print(f"Translated: {translated['translated_text']}")

    # Paraphrasing example
    paraphrased = processor.paraphrase_text(text)
    print("\nParaphrasing:")
    print(f"Original: {paraphrased['original_text']}")
    print(f"Paraphrased: {paraphrased['paraphrased_text']}")

if __name__ == "__main__":
    main()

Desglose del Código

Inicialización (clase TextProcessor):
- Configuración del Modelo y Tokenizador:
  - Utiliza AutoTokenizer y AutoModelForCausalLM para cargar GPT-4.
  - Mueve el modelo al dispositivo apropiado (cuda si hay GPU disponible, sino cpu).
- ¿Por qué AutoTokenizer y AutoModelForCausalLM?
  - Estas clases permiten compatibilidad con una amplia gama de modelos, incluyendo GPT-4.
Funciones Principales:
- generate_response:
  - Codifica el prompt y genera una respuesta usando GPT-4.
  - Parámetros configurables incluyen:
    - max_length: Controla la longitud de la salida.
    - temperature: Determina la diversidad del texto generado (valores más bajos producen salidas más deterministas).
- translate_text:
  - Construye un prompt que instruye a GPT-4 para traducir el texto dado al idioma objetivo.
  - Extrae el texto traducido de la respuesta.
- paraphrase_text:
  - Construye un prompt para parafrasear el texto de entrada.
  - Extrae el resultado parafraseado de la salida.
Flujo de Ejemplo (función main):
- Proporciona texto de ejemplo y demuestra:
  - Traducción al español.
  - Parafraseo del texto de entrada.
Ingeniería de Prompts:
- Los prompts están diseñados con instrucciones específicas (Traduce el siguiente texto..., Parafrasea el siguiente texto...) para guiar a GPT-4 en la ejecución precisa de tareas.

Ejemplo de Salida

Traducción:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Translated: La inteligencia artificial está revolucionando la forma en que vivimos y trabajamos, haciendo muchas tareas más eficientes.

Parafraseo:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Paraphrased: AI is transforming our lives and work processes, streamlining numerous tasks for greater efficiency.

Puntos Clave para la Traducción y Parafraseo con GPT-4

Prompts de Alta Calidad:
- Proporcionar instrucciones claras y específicas a GPT-4 para obtener mejores resultados.
Soporte de Idiomas Dinámico:
- Se puede traducir a múltiples idiomas cambiando target_language.
Compatibilidad de Dispositivos:
- Utiliza automáticamente la GPU si está disponible, asegurando un procesamiento más rápido.
Manejo de Errores (Mejora Opcional):
- Agregar validación para el texto de entrada y manejar casos donde la respuesta puede no coincidir con el formato esperado.

Esta implementación es modular, permitiendo extensiones para otras tareas de PLN como resumen o análisis de sentimientos.

5.2.6 Limitaciones de GPT

Contexto Unidireccional

Sesgos en los Datos de Entrenamiento

La manifestación de estos sesgos se puede observar de varias maneras:

Lenguaje y Asociaciones de Palabras: El modelo puede emparejar consistentemente ciertos adjetivos o descripciones con grupos particulares
Atribución de Roles Profesionales: Al generar texto sobre carreras, el modelo podría predeterminar pronombres específicos de género para ciertas profesiones
Contexto Cultural: El modelo podría priorizar o entender mejor las referencias de culturas dominantes mientras malinterpreta o subrepresenta otras
Suposiciones Socioeconómicas: El contenido generado podría reflejar suposiciones sobre clase social, educación o estatus económico

Bucles de Retroalimentación: El contenido generado podría usarse para entrenar futuros modelos, reforzando sesgos existentes
Efectos de Escala: A medida que las salidas del modelo se utilizan a escala, el contenido sesgado puede alcanzar e influir en audiencias más grandes
Toma de Decisiones Automatizada: Cuando se integra en sistemas automatizados, estos sesgos pueden afectar decisiones y resultados del mundo real

Intensidad de Recursos

La fase de despliegue presenta sus propios desafíos. Estos modelos requieren:

RAM sustancial: A menudo necesitando cientos de gigabytes de memoria para cargar el modelo completo
GPUs de alta gama: Aceleración de hardware especializada para una inferencia eficiente
Almacenamiento significativo: Los modelos pueden tener cientos de gigabytes de tamaño
Infraestructura robusta: Incluyendo sistemas de respaldo y medidas de redundanciaEstos requisitos crean varios efectos en cascada:
Barreras económicas: Los altos costos operativos hacen que estos modelos sean inaccesibles para muchas organizaciones pequeñas e investigadores
Limitaciones geográficas: No todas las regiones tienen acceso a la infraestructura computacional necesaria
Preocupaciones ambientales: La huella de carbono de ejecutar estos modelos a escala plantea serias cuestiones de sostenibilidadEsta intensidad de recursos ha generado importantes discusiones en la comunidad de IA sobre la búsqueda de formas para desarrollar modelos más eficientes y la exploración de técnicas como la compresión de modelos y la destilación de conocimiento para crear versiones más pequeñas y accesibles mientras se mantiene el rendimiento.

5.2.7 Puntos Clave

Los modelos GPT han revolucionado la generación de texto mediante el uso de su arquitectura autorregresiva - lo que significa que predicen cada palabra basándose en las palabras anteriores. Esto les permite crear texto similar al humano que fluye naturalmente y mantiene el contexto a lo largo del texto. Los modelos logran esto procesando el texto token por token, utilizando sofisticados mecanismos de atención para comprender las relaciones entre palabras y frases.
La arquitectura centrada en el decodificador de GPT representa una elección de diseño estratégica que optimiza el modelo para tareas generativas. A diferencia de los modelos codificador-decodificador que necesitan procesar tanto la entrada como la salida, el enfoque de solo decodificador de GPT agiliza el proceso de generación. Esto lo hace particularmente efectivo para tareas como la creación de contenido, escritura de historias y generación de código, donde el objetivo es producir nuevo texto coherente basado en indicaciones dadas.
El notable viaje desde GPT-1 hasta GPT-4 ha demostrado que aumentar el tamaño del modelo y los datos de entrenamiento puede llevar a mejoras dramáticas en la capacidad. GPT-1 comenzó con 117 millones de parámetros, mientras que GPT-3 escaló hasta 175 mil millones de parámetros. Este aumento masivo, combinado con la exposición a muchos más datos de entrenamiento, resultó en mejoras significativas en el rendimiento de tareas, comprensión del contexto y capacidad para seguir instrucciones complejas. Este patrón de escalamiento ha influido en todo el campo de la IA, sugiriendo que los modelos más grandes, cuando están correctamente entrenados, pueden exhibir comportamientos cada vez más sofisticados.
A pesar de sus impresionantes capacidades, los modelos GPT enfrentan limitaciones importantes. Su naturaleza unidireccional significa que solo pueden considerar las palabras anteriores al generar texto, potencialmente perdiendo contexto futuro importante. Además, los recursos computacionales requeridos para ejecutar estos modelos son sustanciales, planteando cuestiones sobre accesibilidad e impacto ambiental. Estos desafíos señalan oportunidades para investigación futura en el desarrollo de arquitecturas y métodos de entrenamiento más eficientes.

5.2 GPT y Transformers Autorregresivos

Esta arquitectura sofisticada permite que los modelos GPT sobresalgan en una amplia gama de aplicaciones:

Generación de Texto: Creación de artículos, historias y escritura creativa similares a los humanos
Resumen: Condensación de documentos largos manteniendo la información clave
Traducción: Conversión de texto entre idiomas preservando el significado
Sistemas de Diálogo: Participación en conversaciones naturales y provisión de respuestas contextualmente apropiadas

5.2.1 Conceptos Clave de GPT

1. Modelado Autorregresivo

Entrada: "El clima hoy está"
Salida: "soleado con probabilidad de lluvia."

Ejemplo de Código: Implementación de Generación de Texto Autorregresiva

import torch
import torch.nn as nn
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import numpy as np

class AutoregressiveGenerator:
    def __init__(self, model_name='gpt2'):
        self.tokenizer = GPT2Tokenizer.from_pretrained(model_name)
        self.model = GPT2LMHeadModel.from_pretrained(model_name)
        self.model.eval()
        
    def generate_text(self, prompt, max_length=100, temperature=0.7, top_k=50):
        # Encode the input prompt
        input_ids = self.tokenizer.encode(prompt, return_tensors='pt')
        
        # Initialize sequence with input prompt
        current_sequence = input_ids
        
        for _ in range(max_length):
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(current_sequence)
                next_token_logits = outputs.logits[:, -1, :]
            
            # Apply temperature scaling
            next_token_logits = next_token_logits / temperature
            
            # Apply top-k filtering
            top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k)
            
            # Convert to probabilities
            probs = torch.softmax(top_k_logits, dim=-1)
            
            # Sample next token
            next_token_id = top_k_indices[0][torch.multinomial(probs[0], 1)]
            
            # Check for end of sequence
            if next_token_id == self.tokenizer.eos_token_id:
                break
            
            # Append new token to sequence
            current_sequence = torch.cat([current_sequence, 
                                       next_token_id.unsqueeze(0).unsqueeze(0)], dim=1)
        
        # Decode the generated sequence
        generated_text = self.tokenizer.decode(current_sequence[0], 
                                             skip_special_tokens=True)
        return generated_text

    def interactive_generation(self, initial_prompt):
        print(f"Initial prompt: {initial_prompt}")
        generated = self.generate_text(initial_prompt)
        print(f"Generated text: {generated}")
        return generated

# Example usage
def demonstrate_autoregressive_generation():
    generator = AutoregressiveGenerator()
    
    prompts = [
        "The artificial intelligence revolution will",
        "In the next decade, technology will",
        "The future of autonomous vehicles is"
    ]
    
    for prompt in prompts:
        print("\n" + "="*50)
        generator.interactive_generation(prompt)
        
if __name__ == "__main__":
    demonstrate_autoregressive_generation()

Desglose del Código:

Inicialización y Configuración:
- Crea una clase AutoregressiveGenerator que encapsula la funcionalidad de GPT-2
- Carga el modelo pre-entrenado y el tokenizador
- Establece el modelo en modo de evaluación para inferencia
Proceso de Generación de Texto:
- Implementa la generación token por token utilizando el enfoque autorregresivo
- Utiliza el escalado de temperatura para controlar la aleatoriedad en la generación
- Aplica filtrado top-k para seleccionar entre los tokens más probables siguientes
Características Principales:
- El parámetro de temperatura controla el equilibrio entre creatividad y consistencia
- El filtrado top-k ayuda a mantener una generación de texto coherente y enfocada
- Maneja la detección de fin de secuencia y la decodificación apropiada del texto

2. Paradigma de Pre-entrenamiento y Ajuste Fino

Similar a BERT, GPT sigue un proceso de entrenamiento integral en dos pasos que le permite tanto aprender patrones generales del lenguaje como especializarse en tareas específicas:

Procesamiento de miles de millones de tokens de diversas fuentes:
- Contenido web incluyendo artículos, foros y documentos académicos
- Obras literarias de varios géneros y períodos
- Documentación técnica y textos especializados
Aprendizaje de relaciones contextuales entre palabras:
- Comprensión de similitudes y diferencias semánticas
- Reconocimiento de expresiones idiomáticas y figuras retóricas
- Comprensión de significados de palabras dependientes del contexto
Desarrollo de una comprensión de la estructura del lenguaje:
- Dominio de reglas gramaticales y patrones sintácticos
- Aprendizaje de organización de documentos y párrafos
- Comprensión del flujo narrativo y coherencia

Entrenamiento con conjuntos de datos cuidadosamente curados y específicos para tareas:
- Uso de datos de alta calidad y validados que representan la tarea objetivo
- Asegurar ejemplos diversos para prevenir el sobreajuste
- Incorporación de terminología y convenciones específicas del dominio
Ajuste de parámetros del modelo para un rendimiento óptimo en tareas específicas:
- Ajuste de tasas de aprendizaje para prevenir el olvido catastrófico
- Implementación de parada temprana para lograr el mejor rendimiento
- Equilibrio entre la adaptación del modelo y la preservación de capacidades generales
Los ejemplos incluyen:
- Resumen: Entrenamiento con pares de documento-resumen
- Respuesta a preguntas: Uso de conjuntos de datos de preguntas y respuestas con variada complejidad
- Traducción: Ajuste fino con texto paralelo en múltiples idiomas
- Generación de contenido: Adaptación a estilos o formatos de escritura específicos

Ejemplo de código usando Entrenamiento GPT-4

import torch
from torch import nn
from transformers import AutoTokenizer, AutoModelForCausalLM
from torch.utils.data import Dataset, DataLoader

# Custom dataset for pre-training and fine-tuning
class TextDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=512):
        self.encodings = tokenizer(
            texts,
            truncation=True,
            padding="max_length",
            max_length=max_length,
            return_tensors="pt"
        )
    
    def __getitem__(self, idx):
        return {key: val[idx] for key, val in self.encodings.items()}
    
    def __len__(self):
        return len(self.encodings["input_ids"])

# Trainer class for GPT-4
class GPT4Trainer:
    def __init__(self, model_name="openai/gpt-4"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name).to(self.device)
    
    def train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5, task="pre-training"):
        dataset = TextDataset(texts, self.tokenizer)
        loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

        optimizer = torch.optim.AdamW(self.model.parameters(), lr=learning_rate)
        self.model.train()
        
        for epoch in range(epochs):
            total_loss = 0
            for batch in loader:
                input_ids = batch["input_ids"].to(self.device)
                attention_mask = batch["attention_mask"].to(self.device)
                
                outputs = self.model(
                    input_ids=input_ids,
                    attention_mask=attention_mask,
                    labels=input_ids
                )
                loss = outputs.loss
                
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                
                total_loss += loss.item()
            
            avg_loss = total_loss / len(loader)
            print(f"{task.capitalize()} Epoch {epoch+1}/{epochs}, Average Loss: {avg_loss:.4f}")
    
    def pre_train(self, texts, batch_size=4, epochs=3, learning_rate=1e-5):
        self.train(texts, batch_size, epochs, learning_rate, task="pre-training")
    
    def fine_tune(self, texts, batch_size=2, epochs=2, learning_rate=5e-6):
        self.train(texts, batch_size, epochs, learning_rate, task="fine-tuning")

# Example usage
def main():
    trainer = GPT4Trainer()

    # Pre-training data
    pre_training_texts = [
        "Artificial intelligence is a rapidly evolving field.",
        "Advancements in machine learning are reshaping industries.",
    ]

    # Fine-tuning data
    fine_tuning_texts = [
        "Transformer models use self-attention mechanisms.",
        "Backpropagation updates the weights of neural networks.",
    ]

    # Perform pre-training
    print("Starting pre-training...")
    trainer.pre_train(pre_training_texts)

    # Perform fine-tuning
    print("\nStarting fine-tuning...")
    trainer.fine_tune(fine_tuning_texts)

if __name__ == "__main__":
    main()

1. Clase TextDataset

Esta clase personalizada de conjunto de datos maneja el procesamiento de texto:

Tokeniza los textos de entrada usando el tokenizador del modelo
Maneja el relleno y truncamiento para asegurar longitudes uniformes de secuencia
Proporciona funcionalidad estándar de conjunto de datos PyTorch para la carga de datos

2. Clase GPT4Trainer

La clase principal de entrenamiento que gestiona el proceso de entrenamiento del modelo:

Inicializa el modelo GPT-4 y el tokenizador
Gestiona la asignación de dispositivos (CPU/GPU)
Proporciona métodos separados para pre-entrenamiento y ajuste fino
Implementa el bucle de entrenamiento con cálculo de pérdida y optimización

3. Proceso de Entrenamiento

El código demuestra tanto las etapas de pre-entrenamiento como de ajuste fino:

El pre-entrenamiento utiliza textos generales de IA y aprendizaje automático
El ajuste fino utiliza contenido técnico más específico sobre transformers y redes neuronales
Ambos procesos rastrean y muestran la pérdida promedio por época

4. Características Principales

La implementación incluye varias características importantes de entrenamiento:

Utiliza el optimizador AdamW para actualizaciones de pesos
Implementa diferentes tasas de aprendizaje para pre-entrenamiento y ajuste fino
Admite procesamiento por lotes para un entrenamiento eficiente
Incluye enmascaramiento de atención para un entrenamiento adecuado del transformer

Ejemplo de Salida

Starting pre-training...
Pre-training Epoch 1/3, Average Loss: 0.3456
Pre-training Epoch 2/3, Average Loss: 0.3012
Pre-training Epoch 3/3, Average Loss: 0.2849

Starting fine-tuning...
Fine-tuning Epoch 1/2, Average Loss: 0.1287
Fine-tuning Epoch 2/2, Average Loss: 0.1145

Este código proporciona una estructura limpia, modular y reutilizable para el pre-entrenamiento y ajuste fino de OpenAI GPT-4.

3. Transformer Solo-Decodificador

Esta naturaleza unidireccional, aunque limitante en algunos aspectos, hace que GPT sea altamente eficiente para tareas que requieren generar continuaciones contextualmente apropiadas de texto.

Ejemplo de Código: Implementación del Transformer Solo-Decodificador

import torch
import torch.nn as nn
import math

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super().__init__()
        self.d_model = d_model
        self.num_heads = num_heads
        self.head_dim = d_model // num_heads
        
        self.q_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.out = nn.Linear(d_model, d_model)
        
    def forward(self, x, mask=None):
        batch_size = x.size(0)
        
        # Linear transformations
        q = self.q_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        k = self.k_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        v = self.v_linear(x).view(batch_size, -1, self.num_heads, self.head_dim)
        
        # Transpose for attention computation
        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)
        
        # Scaled dot-product attention
        scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # Apply mask for decoder self-attention
        if mask is not None:
            scores = scores.masked_fill(mask == 0, float('-inf'))
        
        attention_weights = torch.softmax(scores, dim=-1)
        attention = torch.matmul(attention_weights, v)
        
        # Reshape and apply output transformation
        attention = attention.transpose(1, 2).contiguous()
        attention = attention.view(batch_size, -1, self.d_model)
        return self.out(attention)

class DecoderBlock(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
        super().__init__()
        self.self_attention = MultiHeadAttention(d_model, num_heads)
        self.norm1 = nn.LayerNorm(d_model)
        self.ff = nn.Sequential(
            nn.Linear(d_model, d_ff),
            nn.ReLU(),
            nn.Linear(d_ff, d_model)
        )
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask=None):
        # Self-attention
        attn_output = self.self_attention(x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        
        # Feed forward
        ff_output = self.ff(x)
        x = self.norm2(x + self.dropout(ff_output))
        return x

class GPTModel(nn.Module):
    def __init__(self, vocab_size, d_model, num_layers, num_heads, d_ff, max_seq_len, dropout=0.1):
        super().__init__()
        self.token_embedding = nn.Embedding(vocab_size, d_model)
        self.position_embedding = nn.Embedding(max_seq_len, d_model)
        
        self.decoder_layers = nn.ModuleList([
            DecoderBlock(d_model, num_heads, d_ff, dropout)
            for _ in range(num_layers)
        ])
        
        self.dropout = nn.Dropout(dropout)
        self.output_layer = nn.Linear(d_model, vocab_size)
        
    def generate_mask(self, size):
        mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
        return ~mask
        
    def forward(self, x):
        seq_len = x.size(1)
        positions = torch.arange(seq_len, device=x.device).unsqueeze(0)
        
        # Embeddings
        token_emb = self.token_embedding(x)
        pos_emb = self.position_embedding(positions)
        x = self.dropout(token_emb + pos_emb)
        
        # Create attention mask
        mask = self.generate_mask(seq_len).to(x.device)
        
        # Apply decoder layers
        for layer in self.decoder_layers:
            x = layer(x, mask)
            
        return self.output_layer(x)

# Example usage
def train_gpt():
    # Model parameters
    vocab_size = 50000
    d_model = 512
    num_layers = 6
    num_heads = 8
    d_ff = 2048
    max_seq_len = 1024
    
    # Initialize model
    model = GPTModel(
        vocab_size=vocab_size,
        d_model=d_model,
        num_layers=num_layers,
        num_heads=num_heads,
        d_ff=d_ff,
        max_seq_len=max_seq_len
    )
    
    return model

Desglose del Código:

Clase MultiHeadAttention:
- Implementa atención de producto escalar con múltiples cabezales
- Divide la entrada en proyecciones de consulta, clave y valor
- Aplica máscaras de atención para generación autorregresiva
Clase DecoderBlock:
- Contiene capas de auto-atención y alimentación hacia adelante
- Implementa conexiones residuales y normalización de capas
- Aplica dropout para regularización
Clase GPTModel:
- Combina incrustaciones de tokens y posicionales
- Apila múltiples capas de decodificador
- Implementa enmascaramiento causal para predicción autorregresiva

Características Principales:

Generación autorregresiva mediante enmascaramiento causal
Arquitectura escalable que admite diferentes tamaños de modelo
Implementación eficiente de mecanismos de atención

5.2.2 La Evolución de los Modelos GPT

GPT-1 (2018):

Ejemplo de Código: Implementación de GPT-1

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT1Config:
    def __init__(self):
        self.vocab_size = 40000
        self.n_positions = 512
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1

class LayerNorm(nn.Module):
    def __init__(self, hidden_size, eps=1e-12):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.bias = nn.Parameter(torch.zeros(hidden_size))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.weight * (x - mean) / (std + self.eps) + self.bias

class GPT1Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.dropout = config.dropout
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)

    def split_heads(self, x):
        new_x_shape = x.size()[:-1] + (self.n_head, x.size(-1) // self.n_head)
        x = x.view(*new_x_shape)
        return x.permute(0, 2, 1, 3)

    def forward(self, x, attention_mask=None):
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
        q = self.split_heads(q)
        k = self.split_heads(k)
        v = self.split_heads(v)

        attn_weights = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(v.size(-1)))
        if attention_mask is not None:
            attn_weights = attn_weights.masked_fill(attention_mask[:, None, None, :] == 0, float('-inf'))
        
        attn_weights = F.softmax(attn_weights, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        attn_output = torch.matmul(attn_weights, v)
        
        attn_output = attn_output.permute(0, 2, 1, 3).contiguous()
        attn_output = attn_output.view(*attn_output.size()[:-2], self.n_embd)
        
        attn_output = self.c_proj(attn_output)
        attn_output = self.resid_dropout(attn_output)
        return attn_output

class GPT1Block(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.ln_1 = LayerNorm(config.n_embd)
        self.attn = GPT1Attention(config)
        self.ln_2 = LayerNorm(config.n_embd)
        self.mlp = nn.Sequential(
            nn.Linear(config.n_embd, 4 * config.n_embd),
            nn.GELU(),
            nn.Linear(4 * config.n_embd, config.n_embd),
            nn.Dropout(config.dropout),
        )

    def forward(self, x, attention_mask=None):
        attn_output = self.attn(self.ln_1(x), attention_mask)
        x = x + attn_output
        mlp_output = self.mlp(self.ln_2(x))
        x = x + mlp_output
        return x

class GPT1Model(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.wte = nn.Embedding(config.vocab_size, config.n_embd)
        self.wpe = nn.Embedding(config.n_positions, config.n_embd)
        self.drop = nn.Dropout(config.dropout)
        self.blocks = nn.ModuleList([GPT1Block(config) for _ in range(config.n_layer)])
        self.ln_f = LayerNorm(config.n_embd)

    def forward(self, input_ids, position_ids=None, attention_mask=None):
        if position_ids is None:
            position_ids = torch.arange(0, input_ids.size(-1), dtype=torch.long, device=input_ids.device)
            position_ids = position_ids.unsqueeze(0).expand_as(input_ids)

        inputs_embeds = self.wte(input_ids)
        position_embeds = self.wpe(position_ids)
        hidden_states = inputs_embeds + position_embeds
        hidden_states = self.drop(hidden_states)

        for block in self.blocks:
            hidden_states = block(hidden_states, attention_mask)

        hidden_states = self.ln_f(hidden_states)
        return hidden_states

Desglose del Código:

Configuración (GPT1Config):
- Define hiperparámetros del modelo como el tamaño del vocabulario (40,000)
- Establece la dimensión de embeddings (768), número de capas (12) y cabezales de atención (12)
Normalización de Capas (LayerNorm):
- Implementa normalización de capas personalizada para mejor estabilidad durante el entrenamiento
- Aplica normalización con parámetros aprendibles
Mecanismo de Atención (GPT1Attention):
- Implementa auto-atención multi-cabezal
- Divide las consultas, claves y valores en múltiples cabezales
- Aplica atención de producto escalar con dropout
Bloque Transformer (GPT1Block):
- Combina capas de atención y redes neuronales feed-forward
- Implementa conexiones residuales y normalización de capas
Modelo Principal (GPT1Model):
- Combina embeddings de tokens y posición
- Apila múltiples bloques transformer
- Procesa secuencias de entrada a través de toda la arquitectura del modelo

Características Principales de la Implementación:

Implementa la arquitectura original de GPT-1 con prácticas modernas de PyTorch
Incluye enmascaramiento de atención para un comportamiento autorregresivo adecuado
Utiliza funciones de activación GELU como en el paper original
Incorpora dropout para regularización en todo el modelo

GPT-2 (2019):

Transferencia de tareas zero-shot: El modelo podía realizar tareas sin ajuste fino específico
Mejor manejo de contexto: Podía procesar hasta 1024 tokens (comparado con los 512 de GPT-1)
Coherencia mejorada: Generaba texto notablemente similar al humano con mejor consistencia a largo plazo

import torch
import torch.nn as nn
import torch.nn.functional as F

class GPT2Config:
    def __init__(self):
        self.vocab_size = 50257
        self.n_positions = 1024
        self.n_embd = 768
        self.n_layer = 12
        self.n_head = 12
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5

class GPT2Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd)
        self.c_proj = nn.Linear(config.n_embd, config.n_embd)
        self.attn_dropout = nn.Dropout(config.dropout)
        self.resid_dropout = nn.Dropout(config.dropout)
        
    def _attn(self, query, key, value, attention_mask=None):
        scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            scores = scores.masked_fill(attention_mask == 0, float('-inf'))
            
        attn_weights = F.softmax(scores, dim=-1)
        attn_weights = self.attn_dropout(attn_weights)
        
        return torch.matmul(attn_weights, value)
        
    def forward(self, x, layer_past=None, attention_mask=None):
        qkv = self.c_attn(x)
        query, key, value = qkv.split(self.n_embd, dim=2)
        
        query = query.view(-1, query.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(-1, key.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(-1, value.size(-2), self.n_head, self.head_dim).transpose(1, 2)
        
        attn_output = self._attn(query, key, value, attention_mask)
        attn_output = attn_output.transpose(1, 2).contiguous().view(-1, x.size(-2), self.n_embd)
        
        return self.resid_dropout(self.c_proj(attn_output))

Desglose del Código:

Configuración (GPT2Config):
- Define parámetros de modelo más grandes en comparación con GPT-1
- Aumenta la ventana de contexto a 1024 tokens
- Utiliza un vocabulario de 50,257 tokens
Mecanismo de Atención (GPT2Attention):
- Implementa atención de producto escalar mejorada
- Utiliza matrices de proyección separadas para consulta, clave y valor
- Incluye enmascaramiento de atención optimizado para mejor rendimiento

Mejoras Clave sobre GPT-1:

Mayor capacidad del modelo con eficiencia mejorada de parámetros
Mecanismo de atención mejorado con mejor escalabilidad
Embeddings posicionales más sofisticados para secuencias más largas
Esquemas mejorados de normalización de capas e inicialización

GPT-3 (2020):

Generación de Texto: Produciendo texto similar al humano con coherencia excepcional y consciencia contextual a través de varios formatos incluyendo ensayos, historias, código e incluso poesía.
Aprendizaje con Pocos Ejemplos: A diferencia de modelos anteriores, GPT-3 podía realizar nuevas tareas simplemente mostrándole algunos ejemplos en lenguaje natural, sin ningún ajuste fino o entrenamiento adicional. Esta capacidad le permitía adaptarse a nuevos contextos sobre la marcha.
Multitarea: El modelo mostró competencia en el manejo de diversas tareas como traducción, respuesta a preguntas y aritmética, todo dentro de una única arquitectura de modelo. Esta versatilidad eliminó la necesidad de ajuste fino específico por tarea, convirtiéndolo en un modelo de lenguaje verdaderamente de propósito general.

Ejemplo de Código: Implementación de GPT-3

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class GPT3Config:
    def __init__(self):
        self.vocab_size = 50400
        self.n_positions = 2048
        self.n_embd = 12288
        self.n_layer = 96
        self.n_head = 96
        self.dropout = 0.1
        self.layer_norm_epsilon = 1e-5
        self.rotary_dim = 64  # For rotary position embeddings

class RotaryEmbedding(nn.Module):
    def __init__(self, dim, max_position_embeddings=2048):
        super().__init__()
        self.dim = dim
        inv_freq = 1.0 / (10000 ** (torch.arange(0, dim, 2).float() / dim))
        self.register_buffer('inv_freq', inv_freq)

    def forward(self, positions):
        sincos = torch.einsum('i,j->ij', positions.float(), self.inv_freq)
        sin, cos = torch.sin(sincos), torch.cos(sincos)
        return torch.cat((sin, cos), dim=-1)

class GPT3Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = config.n_embd // config.n_head
        
        self.query = nn.Linear(config.n_embd, config.n_embd)
        self.key = nn.Linear(config.n_embd, config.n_embd)
        self.value = nn.Linear(config.n_embd, config.n_embd)
        self.out_proj = nn.Linear(config.n_embd, config.n_embd)
        
        self.rotary_emb = RotaryEmbedding(config.rotary_dim)
        self.dropout = nn.Dropout(config.dropout)
        
    def apply_rotary_pos_emb(self, x, positions):
        rot_emb = self.rotary_emb(positions)
        x_rot = x[:, :, :self.rotary_dim]
        x_pass = x[:, :, self.rotary_dim:]
        x_rot = torch.cat((-x_rot[..., 1::2], x_rot[..., ::2]), dim=-1)
        return torch.cat((x_rot * rot_emb, x_pass), dim=-1)

    def forward(self, hidden_states, attention_mask=None, position_ids=None):
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        
        if position_ids is not None:
            query = self.apply_rotary_pos_emb(query, position_ids)
            key = self.apply_rotary_pos_emb(key, position_ids)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
            
        attention_probs = F.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.n_embd)
        
        return self.out_proj(context)

Desglose del Código:

Configuración (GPT3Config):
- Parámetros del modelo significativamente más grandes en comparación con GPT-2
- Ventana de contexto extendida a 2048 tokens
- Dimensión de embedding masiva de 12,288
- 96 cabezales y capas de atención para mayor capacidad
Embeddings Posicionales Rotatorios (RotaryEmbedding):
- Implementa RoPE (Embeddings Posicionales Rotatorios)
- Proporciona mejor información posicional que los embeddings absolutos
- Permite un mejor manejo de secuencias más largas
Mecanismo de Atención Mejorado (GPT3Attention):
- Matrices de proyección separadas para consulta, clave y valor
- Implementa integración de embeddings posicionales rotatorios
- Enmascaramiento de atención avanzado y dropout para regularización

Mejoras Clave sobre GPT-2:

Capacidad del modelo dramáticamente aumentada (175B parámetros)
Codificación posicional avanzada con embeddings rotatorios
Mecanismo de atención mejorado con mejores propiedades de escalado
Estabilidad numérica mejorada mediante inicialización y normalización cuidadosa

Esta implementación demuestra la sofisticación arquitectónica de GPT-3, mostrando los componentes clave que permiten su notable rendimiento en una amplia gama de tareas de lenguaje.

GPT-4 (2023)

Excelencia en Procesamiento del Lenguaje Natural:

Comprensión y generación de lenguaje natural con matices y precisión sin precedentes
- Comprensión avanzada del contexto y sutilezas en la comunicación humana
- Capacidad mejorada para mantener la consistencia en contenido de formato largo
- Mejor comprensión de referencias culturales y expresiones idiomáticas

Capacidades Multimodales:

Procesamiento y análisis de imágenes junto con texto (capacidades multimodales)
- Puede comprender y describir información visual compleja
- Capacidad para analizar gráficos, diagramas y dibujos técnicos
- Puede generar respuestas detalladas basadas en entradas visuales

Capacidades Cognitivas Mejoradas:

Capacidades mejoradas de razonamiento y resolución de problemas
- Habilidades avanzadas de análisis lógico y deducción
- Mejor manejo de problemas matemáticos complejos
- Capacidad mejorada para desglosar problemas complejos en pasos manejables

Fiabilidad y Precisión:

Precisión factual mejorada y alucinaciones reducidas
- Recuperación de información más consistente y confiable
- Mejores capacidades de verificación de fuentes y comprobación de hechos
- Tendencia reducida a generar información falsa o engañosa

Excelencia Académica y Profesional:

Mejor rendimiento en pruebas académicas y profesionales
- Experiencia demostrada en varios campos profesionales
- Comprensión mejorada de contenido técnico y especializado
- Capacidad mejorada para proporcionar perspectivas a nivel experto

Seguimiento de Instrucciones:

Mayor capacidad para seguir instrucciones complejas
- Mejor comprensión de tareas de múltiples pasos
- Mejor adherencia a pautas y restricciones específicas
- Capacidad mejorada para mantener el contexto en interacciones prolongadas

Ejemplo de Código: Implementación de GPT-4

import torch
import torch.nn as nn
import math
from typing import Optional, Tuple

class GPT4Config:
    def __init__(self):
        self.vocab_size = 100000
        self.hidden_size = 12288
        self.num_hidden_layers = 128
        self.num_attention_heads = 96
        self.intermediate_size = 49152
        self.max_position_embeddings = 8192
        self.layer_norm_eps = 1e-5
        self.dropout = 0.1

class MultiModalEmbedding(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.text_embeddings = nn.Embedding(config.vocab_size, config.hidden_size)
        self.image_projection = nn.Linear(1024, config.hidden_size)  # Assuming image features of size 1024
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.modality_type_embeddings = nn.Embedding(2, config.hidden_size)  # 0 for text, 1 for image
        self.layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.dropout)

    def forward(self, input_ids=None, image_features=None, position_ids=None):
        if input_ids is not None:
            inputs_embeds = self.text_embeddings(input_ids)
            modality_type = torch.zeros_like(position_ids)
        else:
            inputs_embeds = self.image_projection(image_features)
            modality_type = torch.ones_like(position_ids)
        
        position_embeddings = self.position_embeddings(position_ids)
        modality_embeddings = self.modality_type_embeddings(modality_type)
        
        embeddings = inputs_embeds + position_embeddings + modality_embeddings
        embeddings = self.layernorm(embeddings)
        return self.dropout(embeddings)

class GPT4Attention(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.num_attention_heads = config.num_attention_heads
        self.hidden_size = config.hidden_size
        self.head_dim = config.hidden_size // config.num_attention_heads
        
        self.query = nn.Linear(config.hidden_size, config.hidden_size)
        self.key = nn.Linear(config.hidden_size, config.hidden_size)
        self.value = nn.Linear(config.hidden_size, config.hidden_size)
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        
        self.dropout = nn.Dropout(config.dropout)
        self.scale = math.sqrt(self.head_dim)

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        cache: Optional[Tuple[torch.Tensor]] = None
    ) -> Tuple[torch.Tensor, Optional[Tuple[torch.Tensor]]]:
        batch_size = hidden_states.size(0)
        
        query = self.query(hidden_states)
        key = self.key(hidden_states)
        value = self.value(hidden_states)
        
        query = query.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        key = key.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        value = value.view(batch_size, -1, self.num_attention_heads, self.head_dim).transpose(1, 2)
        
        if cache is not None:
            past_key, past_value = cache
            key = torch.cat([past_key, key], dim=2)
            value = torch.cat([past_value, value], dim=2)
        
        attention_scores = torch.matmul(query, key.transpose(-2, -1)) / self.scale
        
        if attention_mask is not None:
            attention_scores = attention_scores + attention_mask
        
        attention_probs = nn.functional.softmax(attention_scores, dim=-1)
        attention_probs = self.dropout(attention_probs)
        
        context = torch.matmul(attention_probs, value)
        context = context.transpose(1, 2).contiguous()
        context = context.view(batch_size, -1, self.hidden_size)
        
        output = self.dense(context)
        
        return output, (key, value) if cache is not None else None

Desglose del Código:

Configuración (GPT4Config):
- Vocabulario expandido a 100,000 tokens
- Tamaño oculto aumentado a 12,288
- 128 capas transformer para procesamiento más profundo
- Ventana de contexto extendida a 8,192 tokens
Embedding Multimodal:
- Maneja entradas de texto e imagen
- Implementa embeddings posicionales sofisticados
- Incluye embeddings específicos por modalidad
- Utiliza normalización de capas para entrenamiento estable
Mecanismo de Atención Mejorado (GPT4Attention):
- Implementa atención de producto punto escalado con eficiencia mejorada
- Admite estados clave/valor en caché para inferencia más rápida
- Incluye enmascaramiento de atención para flujo de información controlado
- Operaciones matriciales optimizadas para mejor rendimiento

Mejoras Clave sobre GPT-3:

Soporte nativo para múltiples modalidades (texto e imágenes)
Mecanismo de caché más sofisticado para inferencia eficiente
Patrones de atención mejorados para mejores dependencias de largo alcance
Embeddings posicionales mejorados para manejo de secuencias más largas

Esta implementación muestra la arquitectura avanzada de GPT-4, particularmente sus capacidades multimodales y mecanismos de atención mejorados que permiten un mejor rendimiento en diversas tareas.

5.2.3 Cómo Funciona GPT

Fundamento Matemático

GPT calcula la probabilidad de un token x_t dados sus tokens precedentes x_1, x_2, \dots, x_{t-1} como:

P(xt∣x1,x2,…,xt−1)=softmax(Wo⋅Ht)

Donde:

H_t es el estado oculto en la posición t, calculado usando el mecanismo de atención. Este estado oculto representa la comprensión del modelo del contexto del token basado en todos los tokens anteriores en la secuencia. Se calcula a través de múltiples capas de auto-atención y redes neuronales feed-forward.
W_o es la matriz de pesos de salida aprendida que transforma el estado oculto en logits sobre el vocabulario. Esta matriz es crucial ya que mapea las representaciones internas del modelo a probabilidades reales de palabras.

5.2.4 Comparación: GPT vs. BERT

Característica	GPT	BERT
Contexto	Unidireccional (procesa el texto solo de izquierda a derecha, similar a cómo los humanos leen y escriben). Esto permite una generación eficiente de texto pero limita la comprensión del contexto bidireccional.	Bidireccional (procesa el texto en ambas direcciones simultáneamente). Esto permite una mejor comprensión del contexto y las relaciones entre palabras en una oración.
Arquitectura	Transformer de solo decodificador que se especializa en generar secuencias de texto. Utiliza auto-atención enmascarada para evitar ver tokens futuros durante el entrenamiento y la inferencia.	Transformer de solo codificador que se centra en comprender el texto de entrada. Utiliza auto-atención completa para analizar las relaciones entre todas las palabras en una secuencia.
Caso de Uso Principal	Tareas de generación de texto como escritura, traducción y creación de contenido creativo. Sobresale en producir continuaciones de texto coherentes y contextualmente relevantes.	Tareas de comprensión del lenguaje como clasificación, reconocimiento de entidades nombradas y respuesta a preguntas. Más adecuado para analizar y extraer significado de textos existentes.
Objetivo de Entrenamiento	Predicción del siguiente token: aprende a predecir la siguiente palabra en una secuencia dado las palabras anteriores. Este enfoque autorregresivo permite la generación natural de texto.	Predicción de tokens enmascarados: enmascara aleatoriamente palabras en el texto de entrada y aprende a predecirlas usando tanto el contexto izquierdo como el derecho. También realiza predicción de la siguiente oración.

Ejemplo Práctico: Usando GPT para Generación de Texto

Así es cómo usar GPT-2 mediante la biblioteca Transformers de Hugging Face para generar texto coherente.

Ejemplo de Código: Generación de Texto con GPT-2

from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch
import time

def setup_model(model_name="gpt2"):
    """Initialize the model and tokenizer"""
    tokenizer = GPT2Tokenizer.from_pretrained(model_name)
    model = GPT2LMHeadModel.from_pretrained(model_name)
    return tokenizer, model

def generate_text(prompt, model, tokenizer, 
                 max_length=100,
                 num_beams=5,
                 temperature=0.7,
                 top_k=50,
                 top_p=0.95,
                 no_repeat_ngram_size=2,
                 num_return_sequences=3):
    """Generate text with various parameters for control"""
    
    # Encode the input prompt
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs.input_ids
    
    # Generate with specified parameters
    start_time = time.time()
    
    outputs = model.generate(
        input_ids,
        max_length=max_length,
        num_beams=num_beams,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        no_repeat_ngram_size=no_repeat_ngram_size,
        num_return_sequences=num_return_sequences,
        pad_token_id=tokenizer.eos_token_id,
        early_stopping=True
    )
    
    generation_time = time.time() - start_time
    
    # Decode and return the generated sequences
    generated_texts = [tokenizer.decode(output, skip_special_tokens=True) 
                      for output in outputs]
    
    return generated_texts, generation_time

def main():
    # Set up model and tokenizer
    tokenizer, model = setup_model()
    
    # Example prompts
    prompts = [
        "The future of artificial intelligence is",
        "In the next decade, technology will",
        "The most important scientific discovery was"
    ]
    
    # Generate text for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        print("-" * 50)
        
        generated_texts, generation_time = generate_text(
            prompt=prompt,
            model=model,
            tokenizer=tokenizer
        )
        
        print(f"Generation Time: {generation_time:.2f} seconds")
        print("\nGenerated Sequences:")
        for i, text in enumerate(generated_texts, 1):
            print(f"\n{i}. {text}\n")

if __name__ == "__main__":
    main()

Desglose del Código:

Configuración e Importaciones:
- Utiliza la biblioteca transformers para acceder al modelo GPT-2
- Incluye torch para operaciones con tensores
- Módulo time para monitoreo de rendimiento
Funciones Principales:
- setup_model(): Inicializa el modelo y el tokenizador
- generate_text(): Función principal de generación con múltiples parámetros
- main(): Orquesta el proceso de generación con múltiples prompts
Parámetros de Generación:
- max_length: Longitud máxima del texto generado
- num_beams: Número de haces para la búsqueda por haces
- temperature: Controla la aleatoriedad (mayor = más aleatorio)
- top_k: Limita el vocabulario a los K tokens principales
- top_p: Parámetro de muestreo núcleo
- no_repeat_ngram_size: Previene la repetición de n-gramas
Características:
- Manejo de múltiples prompts
- Seguimiento del tiempo de generación
- Generación de múltiples secuencias por prompt
- Parámetros de generación configurables

5.2.5 Aplicaciones de GPT

Generación de Texto

Las capacidades creativas del modelo son extensas y matizadas:

Para historias, puede desarrollar tramas complejas con múltiples líneas argumentales, crear personajes multidimensionales con personalidades distintivas, y tejer arcos narrativos intrincados que mantienen a los lectores enganchados de principio a fin.
Para ensayos, puede construir argumentos bien razonados respaldados por ejemplos relevantes, mantener un flujo lógico entre párrafos, y adaptar su estilo de escritura para ajustarse a tonos académicos, profesionales o casuales según sea necesario.
Para poesía, puede elaborar versos que demuestran comprensión de varias formas poéticas (sonetos, haikus, verso libre), incorporar dispositivos literarios sofisticados (metáforas, aliteración, asonancia), y mantener esquemas consistentes de métrica y rima cuando se requiere.

Esta versatilidad en la generación creativa proviene de varios factores clave:

Su entrenamiento en diversas fuentes de texto, incluyendo literatura, artículos académicos y contenido en línea
Su capacidad para capturar patrones sutiles en la estructura del lenguaje a través de sus mecanismos de atención multicapa
Su comprensión contextual que le permite mantener la consistencia temática a lo largo de pasajes extensos
Su capacidad para adaptar el estilo de escritura según los prompts o ejemplos dados

Ejemplo de Código: Generación de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class GPT4TextGenerator:
    def __init__(self, model_name: str = "gpt4-base"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_with_streaming(
        self,
        prompt: str,
        max_length: int = 200,
        temperature: float = 0.8,
        top_p: float = 0.9,
        presence_penalty: float = 0.0,
        frequency_penalty: float = 0.0,
    ) -> str:
        # Encode the input prompt
        inputs = self.tokenizer.encode(prompt, return_tensors="pt").to(self.device)
        
        # Track generated tokens for penalties
        generated_tokens = []
        current_length = 0
        
        while current_length < max_length:
            # Get model predictions
            with torch.no_grad():
                outputs = self.model(inputs)
                next_token_logits = outputs.logits[:, -1, :]
                
                # Apply temperature scaling
                next_token_logits = next_token_logits / temperature
                
                # Apply penalties
                if len(generated_tokens) > 0:
                    for token_id in set(generated_tokens):
                        # Presence penalty
                        next_token_logits[0, token_id] -= presence_penalty
                        # Frequency penalty
                        freq = generated_tokens.count(token_id)
                        next_token_logits[0, token_id] -= frequency_penalty * freq
                
                # Apply nucleus (top-p) sampling
                sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
                cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0
                indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)
                next_token_logits[indices_to_remove] = float('-inf')
                
                # Sample next token
                probs = torch.softmax(next_token_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)
                
                # Break if we generate an EOS token
                if next_token.item() == self.tokenizer.eos_token_id:
                    break
                
                # Append the generated token
                generated_tokens.append(next_token.item())
                inputs = torch.cat([inputs, next_token.unsqueeze(0)], dim=1)
                current_length += 1
                
                # Yield intermediate results
                current_text = self.tokenizer.decode(generated_tokens)
                yield current_text

    def generate(self, prompt: str, **kwargs) -> str:
        """Non-streaming version of text generation"""
        return list(self.generate_with_streaming(prompt, **kwargs))[-1]

# Example usage
def main():
    generator = GPT4TextGenerator()
    
    prompts = [
        "Explain the concept of quantum computing in simple terms:",
        "Write a short story about a time traveler:",
        "Describe the process of photosynthesis:"
    ]
    
    for prompt in prompts:
        print(f"\nPrompt: {prompt}\n")
        print("Generating response...")
        
        # Stream the generation
        for partial_response in generator.generate_with_streaming(
            prompt,
            max_length=150,
            temperature=0.7,
            top_p=0.9,
            presence_penalty=0.2,
            frequency_penalty=0.2
        ):
            print(partial_response, end="\r")
        print("\n" + "="*50)

if __name__ == "__main__":
    main()

Desglose del Código:

Estructura de Clase:
- Implementa una clase GPT4TextGenerator para la generación organizada de texto
- Utiliza AutoTokenizer y AutoModelForCausalLM para la carga del modelo
- Compatible con inferencia en GPU y CPU
Características Avanzadas de Generación:
- Generación en streaming con declaraciones yield
- Aleatoriedad controlada por temperatura
- Muestreo de núcleo (top-p) para mejor calidad
- Penalizaciones de presencia y frecuencia para reducir la repetición
Parámetros Clave:
- max_length: Controla la longitud máxima del texto generado
- temperature: Ajusta la aleatoriedad en la selección de tokens
- top_p: Controla el umbral de muestreo de núcleo
- presence_penalty: Reduce la repetición de tokens
- frequency_penalty: Penaliza el uso frecuente de tokens
Detalles de Implementación:
- Generación eficiente de tokens con torch.no_grad()
- Aplicación dinámica de penalizaciones para mejor calidad de texto
- Transmisión en tiempo real del texto generado
- Manejo flexible de prompts con ejemplos de uso

Sistemas de Diálogo

Procesa entradas de lenguaje natural mediante la comprensión de la intención del usuario, el contexto y los matices en la comunicación a través de:
- Análisis semántico de mensajes del usuario para captar el significado subyacente
- Reconocimiento de subtextos emocionales y sentimientos
- Interpretación de coloquialismos y expresiones idiomáticas
Genera respuestas similares a las humanas que mantienen el flujo de conversación y el contexto a través de múltiples intercambios mediante:
- Seguimiento del historial de conversación para mantener un diálogo coherente
- Uso de referencias apropiadas a mensajes anteriores
- Aseguramiento de la progresión lógica de ideas y temas
Maneja diversos escenarios de conversación, desde servicio al cliente hasta tutoría educativa, a través de:
- Bases de conocimiento especializadas para diferentes dominios
- Estrategias de respuesta adaptativas basadas en el tipo de conversación
- Integración con marcos de trabajo orientados a tareas específicas
Adapta el tono y estilo según el contexto de la conversación y las preferencias del usuario mediante:
- Reconocimiento de situaciones formales vs informales
- Ajuste de la complejidad técnica según la experiencia del usuario
- Correspondencia de resonancia emocional cuando es apropiado

Ejemplo de Código: Sistemas de Diálogo con GPT-2

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict
from dataclasses import dataclass
from datetime import datetime

@dataclass
class DialogueContext:
    conversation_history: List[Dict[str, str]]
    max_history: int = 5
    system_prompt: str = "You are a helpful AI assistant."

class DialogueSystem:
    def __init__(self, model_name: str = "gpt2"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def format_dialogue(self, context: DialogueContext) -> str:
        formatted = context.system_prompt + "\n\n"
        for message in context.conversation_history[-context.max_history:]:
            role = message["role"]
            content = message["content"]
            formatted += f"{role}: {content}\n"
        return formatted
    
    def generate_response(
        self,
        context: DialogueContext,
        max_length: int = 100,
        temperature: float = 0.7,
        top_p: float = 0.9
    ) -> str:
        # Format the conversation history
        dialogue_text = self.format_dialogue(context)
        dialogue_text += "Assistant: "
        
        # Encode and generate
        inputs = self.tokenizer.encode(dialogue_text, return_tensors="pt").to(self.device)
        
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=inputs.shape[1] + max_length,
                temperature=temperature,
                top_p=top_p,
                pad_token_id=self.tokenizer.eos_token_id,
                num_return_sequences=1
            )
        
        response = self.tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)
        return response.strip()

def main():
    # Initialize the dialogue system
    dialogue_system = DialogueSystem()
    
    # Create a conversation context
    context = DialogueContext(
        conversation_history=[],
        max_history=5,
        system_prompt="You are a helpful AI assistant specialized in technical support."
    )
    
    # Example conversation
    user_messages = [
        "I'm having trouble with my laptop. It's running very slowly.",
        "Yes, it's a Windows laptop and it's about 2 years old.",
        "I haven't cleaned up any files recently.",
    ]
    
    for message in user_messages:
        # Add user message to history
        context.conversation_history.append({
            "role": "User",
            "content": message,
            "timestamp": datetime.now().isoformat()
        })
        
        # Generate and add assistant response
        response = dialogue_system.generate_response(context)
        context.conversation_history.append({
            "role": "Assistant",
            "content": response,
            "timestamp": datetime.now().isoformat()
        })
        
        # Print the exchange
        print(f"\nUser: {message}")
        print(f"Assistant: {response}")

if __name__ == "__main__":
    main()

Desglose del Código:

Componentes Principales:
- Clase DialogueContext para gestionar el estado de la conversación
- Clase DialogueSystem para manejar las interacciones del modelo
- Gestión eficiente del historial de conversación con límite max_history
Características Principales:
- Mantiene el contexto de la conversación a través de múltiples intercambios
- Implementa muestreo por temperatura y top-p para la generación de respuestas
- Incluye seguimiento de marca temporal para cada mensaje
- Admite prompts del sistema para la definición de roles
Detalles de Implementación:
- Utiliza la biblioteca transformers para el manejo del modelo
- Implementa generación eficiente de respuestas con torch.no_grad()
- Formatea el historial de diálogo para respuestas contextualizadas
- Maneja mensajes tanto del usuario como del asistente en un formato estructurado
Características Avanzadas:
- Longitud configurable del historial de conversación
- Personalización flexible del prompt del sistema
- Almacenamiento estructurado de mensajes con marcas temporales
- Soporte para aceleración GPU cuando está disponible

Resumen

Procesamiento eficiente de información mediante la condensación de textos extensos en resúmenes digeribles:
- Reduce el tiempo de lectura hasta en un 75% mientras mantiene la integridad del mensaje principal
- Identifica y resalta automáticamente los puntos más significativos
- Utiliza algoritmos avanzados para determinar la relevancia y prioridad de la información
Extracción de puntos cruciales manteniendo el contexto y significado:
- Emplea análisis semántico sofisticado para entender las relaciones entre ideas
- Preserva el contexto crítico que da significado a la información extraída
- Asegura el flujo lógico y la coherencia en el contenido resumido
Múltiples estilos de resumen:
- Resúmenes extractivos que extraen oraciones clave directamente de la fuente:
  - Mantiene la voz original del autor y la redacción precisa
  - Ideal para documentos técnicos o legales donde la fraseología exacta es crucial
- Resúmenes abstractivos que reformulan el contenido con nuevas palabras:
  - Crea narrativas más naturales y fluidas
  - Maneja mejor la redundancia y la síntesis de información
- Resúmenes de longitud controlada adaptables a diferentes necesidades:
  - Abarca desde breves resúmenes ejecutivos hasta descripciones detalladas
  - Ratios de compresión personalizables según la longitud objetivo

Ejemplo de Código: Resumen de Texto con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict, Optional

class TextSummarizer:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
        
    def generate_summary(
        self,
        text: str,
        max_length: int = 150,
        min_length: Optional[int] = None,
        temperature: float = 0.7,
        num_beams: int = 4,
    ) -> Dict[str, str]:
        # Prepare the prompt
        prompt = f"Summarize the following text:\n\n{text}\n\nSummary:"
        
        # Encode the input text
        inputs = self.tokenizer.encode(
            prompt,
            return_tensors="pt",
            max_length=1024,
            truncation=True
        ).to(self.device)
        
        # Generate summary
        with torch.no_grad():
            summary_ids = self.model.generate(
                inputs,
                max_length=max_length,
                min_length=min_length or 50,
                num_beams=num_beams,
                temperature=temperature,
                no_repeat_ngram_size=3,
                length_penalty=2.0,
                early_stopping=True
            )
        
        # Decode and format the summary
        summary = self.tokenizer.decode(summary_ids[0], skip_special_tokens=True)
        
        # Extract the summary part
        summary_text = summary.split("Summary:")[-1].strip()
        
        return {
            "original_text": text,
            "summary": summary_text,
            "compression_ratio": len(summary_text.split()) / len(text.split())
        }

def main():
    # Initialize summarizer
    summarizer = TextSummarizer()
    
    # Example text to summarize
    sample_text = """
    Artificial intelligence has transformed numerous industries, from healthcare 
    to transportation. Machine learning algorithms now power everything from 
    recommendation systems to autonomous vehicles. Deep learning, a subset of AI, 
    has particularly excelled in pattern recognition tasks, enabling breakthroughs 
    in image and speech recognition. As these technologies continue to evolve, 
    they raise important questions about ethics, privacy, and the future of work.
    """
    
    # Generate summaries with different parameters
    summaries = []
    for temp in [0.3, 0.7]:
        for length in [100, 150]:
            result = summarizer.generate_summary(
                sample_text,
                max_length=length,
                temperature=temp
            )
            summaries.append(result)
    
    # Print results
    for i, summary in enumerate(summaries, 1):
        print(f"\nSummary {i}:")
        print(f"Text: {summary['summary']}")
        print(f"Compression Ratio: {summary['compression_ratio']:.2f}")

if __name__ == "__main__":
    main()

Como puedes ver, este código implementa un sistema de resumen de texto usando GPT-4. Aquí hay un desglose completo de sus componentes principales:

Clase TextSummarizer:

Se inicializa con un modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, sino recurre a CPU
Utiliza la biblioteca transformers para el manejo del modelo

Método generate_summary:

Acepta parámetros de entrada:
- text: El contenido a resumir
- max_length: Longitud máxima del resumen (predeterminado 150)
- min_length: Longitud mínima del resumen (opcional)
- temperature: Controla la aleatoriedad (predeterminado 0.7)
- num_beams: Número de haces para la búsqueda por haces (predeterminado 4)

Características Principales:

Utiliza búsqueda por haces para resúmenes de mejor calidad
Implementa no_repeat_ngram para prevenir repeticiones
Incluye penalización por longitud y parada temprana
Calcula la relación de compresión entre el texto original y el resumido

Función Principal:

Demuestra el uso con un texto de ejemplo relacionado con IA
Genera múltiples resúmenes con diferentes parámetros:
- Prueba dos valores de temperatura (0.3 y 0.7)
- Prueba dos configuraciones de longitud (100 y 150)

Ejemplo de Salida

Summary 1:
Text: Artificial intelligence has revolutionized industries, with machine learning driving innovation in healthcare and transportation.
Compression Ratio: 0.30

Summary 2:
Text: AI advancements in machine learning and deep learning are enabling breakthroughs while raising ethical concerns.
Compression Ratio: 0.27

Generación de Código

Completación Inteligente de Código con Conciencia Contextual Avanzada
- Analiza el contexto del código circundante para sugerir las llamadas a funciones y nombres de variables más relevantes basados en patrones existentes
- Aprende de las convenciones de codificación específicas del proyecto para mantener un estilo consistente
- Predice y completa patrones de programación complejos considerando el contexto completo del código base
- Adapta las sugerencias según las bibliotecas importadas y las convenciones específicas del framework
Generación Sofisticada de Código Boilerplate
- Crea automáticamente plantillas de implementación estandarizadas siguiendo las mejores prácticas de la industria
- Genera estructuras completas de clases, interfaces y patrones de diseño
- Maneja tareas repetitivas de codificación eficientemente mientras mantiene la consistencia
- Soporta múltiples lenguajes de programación y frameworks con la sintaxis apropiada
Detección Integral de Errores y Mejora de la Calidad del Código
- Identifica proactivamente problemas potenciales incluyendo errores de ejecución, fugas de memoria y vulnerabilidades de seguridad
- Sugiere optimizaciones y mejoras basadas en estándares de codificación establecidos
- Proporciona explicaciones detalladas para las correcciones propuestas para ayudar a los desarrolladores a aprender
- Analiza la complejidad del código y sugiere oportunidades de refactorización para mejorar la mantenibilidad

Ejemplo de Código: Generación de Código con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import List, Dict, Optional

class CodeGenerator:
    def __init__(self, model_name: str = "openai/gpt-4"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)
    
    def generate_code(
        self,
        prompt: str,
        max_length: int = 512,
        temperature: float = 0.7,
        top_p: float = 0.95,
        num_return_sequences: int = 1,
    ) -> List[str]:
        # Prepare the prompt with coding context
        formatted_prompt = f"Generate Python code for: {prompt}\n\nCode:"
        
        # Encode the prompt
        inputs = self.tokenizer.encode(
            formatted_prompt,
            return_tensors="pt",
            max_length=128,
            truncation=True
        ).to(self.device)
        
        # Generate code sequences
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=top_p,
                num_return_sequences=num_return_sequences,
                pad_token_id=self.tokenizer.eos_token_id,
                do_sample=True,
                early_stopping=True
            )
        
        # Decode and format generated code
        generated_code = []
        for output in outputs:
            code = self.tokenizer.decode(output, skip_special_tokens=True)
            # Extract only the generated code part
            code = code.split("Code:")[-1].strip()
            generated_code.append(code)
            
        return generated_code
    
    def improve_code(
        self,
        code: str,
        improvement_type: str = "optimization"
    ) -> Dict[str, str]:
        # Prepare prompt for code improvement
        prompt = f"Improve the following code ({improvement_type}):\n{code}\n\nImproved code:"
        
        # Generate improved version
        improved = self.generate_code(prompt, temperature=0.5)[0]
        
        return {
            "original": code,
            "improved": improved,
            "improvement_type": improvement_type
        }

def main():
    # Initialize generator
    generator = CodeGenerator()
    
    # Example prompts
    prompts = [
        "Create a function to calculate fibonacci numbers using dynamic programming",
        "Implement a binary search tree class with insert and search methods"
    ]
    
    # Generate code for each prompt
    for prompt in prompts:
        print(f"\nPrompt: {prompt}")
        generated_codes = generator.generate_code(
            prompt,
            temperature=0.7,
            num_return_sequences=2
        )
        
        for i, code in enumerate(generated_codes, 1):
            print(f"\nGenerated Code {i}:")
            print(code)
        
        # Demonstrate code improvement
        if generated_codes:
            improved = generator.improve_code(
                generated_codes[0],
                improvement_type="optimization"
            )
            print("\nOptimized Version:")
            print(improved["improved"])

if __name__ == "__main__":
    main()

El código implementa una clase CodeGenerator que utiliza GPT-4 para la generación y mejora de código. Estos son los componentes principales:

Inicialización de Clase

Se inicializa con el modelo GPT-4 y su tokenizador
Detecta y utiliza GPU automáticamente si está disponible, recurriendo a CPU si es necesario

Métodos Principales

generate_code():
- Recibe parámetros como prompt, longitud máxima, temperatura y número de secuencias
- Da formato al prompt para la generación de código
- Utiliza el modelo para generar secuencias de código
- Devuelve múltiples variaciones de código basadas en los parámetros de entrada
improve_code():
- Recibe código existente y un tipo de mejora (por ejemplo, "optimización")
- Genera una versión mejorada del código de entrada
- Devuelve tanto la versión original como la mejorada

Demostración de la Función Principal

Muestra el uso práctico con ejemplos de prompts:
- Implementación de secuencia Fibonacci
- Implementación de árbol binario de búsqueda
Genera múltiples versiones de código para cada prompt
Demuestra la funcionalidad de mejora de código

Características Principales

Control de temperatura para la creatividad en la generación
Soporte para múltiples secuencias de retorno
Capacidades de optimización de código
Manejo de errores integrado y aceleración por GPU

Traducción y Parafraseo

Variaciones de estilo: Transformar texto entre formas formales, casuales, técnicas o simplificadas
- Adaptar documentos académicos para el público general
- Convertir documentación técnica en guías amigables para el usuario
Ajustes de tono: Modificar la resonancia emocional del contenido
- Cambiar entre tonos profesionales, amigables o neutrales
- Adaptar contenido de marketing para diferentes audiencias
Optimización de longitud: Expandir o condensar contenido mientras se preserva la información clave
- Crear explicaciones detalladas a partir de puntos concisos
- Resumir documentos extensos en resúmenes breves

Estas capacidades sofisticadas sirven para diversas aplicaciones:

Localización de contenido global para mercados internacionales
Asistencia en escritura académica para trabajos de investigación y tesis
Comunicación intercultural en organizaciones multinacionales
Adaptación de contenido para diferentes plataformas y audiencias
Desarrollo de material educativo para diferentes niveles de comprensión

Ejemplo de Código: Traducción y Parafraseo con GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from typing import Dict

class TextProcessor:
    def __init__(self, model_name: str = "openai/gpt-4"):
        """
        Initializes the model and tokenizer for GPT-4.

        Parameters:
            model_name (str): The name of the GPT-4 model.
        """
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model.to(self.device)

    def generate_response(self, prompt: str, max_length: int = 512, temperature: float = 0.7) -> str:
        """
        Generates a response using GPT-4 for a given prompt.

        Parameters:
            prompt (str): The input prompt for the model.
            max_length (int): Maximum length of the generated response.
            temperature (float): Sampling temperature for diversity in output.

        Returns:
            str: The generated response.
        """
        inputs = self.tokenizer.encode(prompt, return_tensors="pt", max_length=1024, truncation=True).to(self.device)
        with torch.no_grad():
            outputs = self.model.generate(
                inputs,
                max_length=max_length,
                temperature=temperature,
                top_p=0.95,
                pad_token_id=self.tokenizer.eos_token_id,
                early_stopping=True
            )
        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)

    def translate_text(self, text: str, target_language: str) -> Dict[str, str]:
        """
        Translates text into the specified language.

        Parameters:
            text (str): The text to be translated.
            target_language (str): The language to translate the text into (e.g., "French", "Spanish").

        Returns:
            Dict[str, str]: A dictionary containing the original text and the translated text.
        """
        prompt = f"Translate the following text into {target_language}:\n\n{text}"
        response = self.generate_response(prompt)
        translation = response.split(f"into {target_language}:")[-1].strip()
        return {"original_text": text, "translated_text": translation}

    def paraphrase_text(self, text: str) -> Dict[str, str]:
        """
        Paraphrases the given text.

        Parameters:
            text (str): The text to be paraphrased.

        Returns:
            Dict[str, str]: A dictionary containing the original text and the paraphrased version.
        """
        prompt = f"Paraphrase the following text:\n\n{text}"
        response = self.generate_response(prompt)
        paraphrase = response.split("Paraphrase:")[-1].strip()
        return {"original_text": text, "paraphrased_text": paraphrase}


def main():
    # Initialize text processor
    processor = TextProcessor()

    # Example input text
    text = "Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient."

    # Translation example
    translated = processor.translate_text(text, "Spanish")
    print("\nTranslation:")
    print(f"Original: {translated['original_text']}")
    print(f"Translated: {translated['translated_text']}")

    # Paraphrasing example
    paraphrased = processor.paraphrase_text(text)
    print("\nParaphrasing:")
    print(f"Original: {paraphrased['original_text']}")
    print(f"Paraphrased: {paraphrased['paraphrased_text']}")

if __name__ == "__main__":
    main()

Desglose del Código

Inicialización (clase TextProcessor):
- Configuración del Modelo y Tokenizador:
  - Utiliza AutoTokenizer y AutoModelForCausalLM para cargar GPT-4.
  - Mueve el modelo al dispositivo apropiado (cuda si hay GPU disponible, sino cpu).
- ¿Por qué AutoTokenizer y AutoModelForCausalLM?
  - Estas clases permiten compatibilidad con una amplia gama de modelos, incluyendo GPT-4.
Funciones Principales:
- generate_response:
  - Codifica el prompt y genera una respuesta usando GPT-4.
  - Parámetros configurables incluyen:
    - max_length: Controla la longitud de la salida.
    - temperature: Determina la diversidad del texto generado (valores más bajos producen salidas más deterministas).
- translate_text:
  - Construye un prompt que instruye a GPT-4 para traducir el texto dado al idioma objetivo.
  - Extrae el texto traducido de la respuesta.
- paraphrase_text:
  - Construye un prompt para parafrasear el texto de entrada.
  - Extrae el resultado parafraseado de la salida.
Flujo de Ejemplo (función main):
- Proporciona texto de ejemplo y demuestra:
  - Traducción al español.
  - Parafraseo del texto de entrada.
Ingeniería de Prompts:
- Los prompts están diseñados con instrucciones específicas (Traduce el siguiente texto..., Parafrasea el siguiente texto...) para guiar a GPT-4 en la ejecución precisa de tareas.

Ejemplo de Salida

Traducción:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Translated: La inteligencia artificial está revolucionando la forma en que vivimos y trabajamos, haciendo muchas tareas más eficientes.

Parafraseo:

Original: Artificial intelligence is revolutionizing the way we live and work, making many tasks more efficient.
Paraphrased: AI is transforming our lives and work processes, streamlining numerous tasks for greater efficiency.

Puntos Clave para la Traducción y Parafraseo con GPT-4

Prompts de Alta Calidad:
- Proporcionar instrucciones claras y específicas a GPT-4 para obtener mejores resultados.
Soporte de Idiomas Dinámico:
- Se puede traducir a múltiples idiomas cambiando target_language.
Compatibilidad de Dispositivos:
- Utiliza automáticamente la GPU si está disponible, asegurando un procesamiento más rápido.
Manejo de Errores (Mejora Opcional):
- Agregar validación para el texto de entrada y manejar casos donde la respuesta puede no coincidir con el formato esperado.

Esta implementación es modular, permitiendo extensiones para otras tareas de PLN como resumen o análisis de sentimientos.

5.2.6 Limitaciones de GPT

Contexto Unidireccional

Sesgos en los Datos de Entrenamiento

La manifestación de estos sesgos se puede observar de varias maneras:

Lenguaje y Asociaciones de Palabras: El modelo puede emparejar consistentemente ciertos adjetivos o descripciones con grupos particulares
Atribución de Roles Profesionales: Al generar texto sobre carreras, el modelo podría predeterminar pronombres específicos de género para ciertas profesiones
Contexto Cultural: El modelo podría priorizar o entender mejor las referencias de culturas dominantes mientras malinterpreta o subrepresenta otras
Suposiciones Socioeconómicas: El contenido generado podría reflejar suposiciones sobre clase social, educación o estatus económico

Bucles de Retroalimentación: El contenido generado podría usarse para entrenar futuros modelos, reforzando sesgos existentes
Efectos de Escala: A medida que las salidas del modelo se utilizan a escala, el contenido sesgado puede alcanzar e influir en audiencias más grandes
Toma de Decisiones Automatizada: Cuando se integra en sistemas automatizados, estos sesgos pueden afectar decisiones y resultados del mundo real

Intensidad de Recursos

La fase de despliegue presenta sus propios desafíos. Estos modelos requieren:

RAM sustancial: A menudo necesitando cientos de gigabytes de memoria para cargar el modelo completo
GPUs de alta gama: Aceleración de hardware especializada para una inferencia eficiente
Almacenamiento significativo: Los modelos pueden tener cientos de gigabytes de tamaño
Infraestructura robusta: Incluyendo sistemas de respaldo y medidas de redundanciaEstos requisitos crean varios efectos en cascada:
Barreras económicas: Los altos costos operativos hacen que estos modelos sean inaccesibles para muchas organizaciones pequeñas e investigadores
Limitaciones geográficas: No todas las regiones tienen acceso a la infraestructura computacional necesaria
Preocupaciones ambientales: La huella de carbono de ejecutar estos modelos a escala plantea serias cuestiones de sostenibilidadEsta intensidad de recursos ha generado importantes discusiones en la comunidad de IA sobre la búsqueda de formas para desarrollar modelos más eficientes y la exploración de técnicas como la compresión de modelos y la destilación de conocimiento para crear versiones más pequeñas y accesibles mientras se mantiene el rendimiento.

5.2.7 Puntos Clave

Los modelos GPT han revolucionado la generación de texto mediante el uso de su arquitectura autorregresiva - lo que significa que predicen cada palabra basándose en las palabras anteriores. Esto les permite crear texto similar al humano que fluye naturalmente y mantiene el contexto a lo largo del texto. Los modelos logran esto procesando el texto token por token, utilizando sofisticados mecanismos de atención para comprender las relaciones entre palabras y frases.
La arquitectura centrada en el decodificador de GPT representa una elección de diseño estratégica que optimiza el modelo para tareas generativas. A diferencia de los modelos codificador-decodificador que necesitan procesar tanto la entrada como la salida, el enfoque de solo decodificador de GPT agiliza el proceso de generación. Esto lo hace particularmente efectivo para tareas como la creación de contenido, escritura de historias y generación de código, donde el objetivo es producir nuevo texto coherente basado en indicaciones dadas.
El notable viaje desde GPT-1 hasta GPT-4 ha demostrado que aumentar el tamaño del modelo y los datos de entrenamiento puede llevar a mejoras dramáticas en la capacidad. GPT-1 comenzó con 117 millones de parámetros, mientras que GPT-3 escaló hasta 175 mil millones de parámetros. Este aumento masivo, combinado con la exposición a muchos más datos de entrenamiento, resultó en mejoras significativas en el rendimiento de tareas, comprensión del contexto y capacidad para seguir instrucciones complejas. Este patrón de escalamiento ha influido en todo el campo de la IA, sugiriendo que los modelos más grandes, cuando están correctamente entrenados, pueden exhibir comportamientos cada vez más sofisticados.
A pesar de sus impresionantes capacidades, los modelos GPT enfrentan limitaciones importantes. Su naturaleza unidireccional significa que solo pueden considerar las palabras anteriores al generar texto, potencialmente perdiendo contexto futuro importante. Además, los recursos computacionales requeridos para ejecutar estos modelos son sustanciales, planteando cuestiones sobre accesibilidad e impacto ambiental. Estos desafíos señalan oportunidades para investigación futura en el desarrollo de arquitecturas y métodos de entrenamiento más eficientes.

Compra este libro