Menu iconMenu icon
NLP con Transformadores: Técnicas Avanzadas y Aplicaciones Multimodales

Proyecto 3: API de Análisis de Sentimientos con Transformador Ajustado

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utiliza la biblioteca datasets de Hugging Face para cargar y preprocesar el conjunto de datos IMDb. Esta biblioteca proporciona una interfaz simple para acceder y manipular conjuntos de datos, facilitando el trabajo con colecciones de datos a gran escala. El paso de preprocesamiento implica cargar los datos de texto sin procesar, convertirlos a un formato adecuado para el aprendizaje automático y prepararlos para el entrenamiento del modelo.

La biblioteca maneja automáticamente tareas comunes de preprocesamiento como la tokenización (dividir el texto en unidades más pequeñas), el relleno (hacer que las secuencias tengan una longitud uniforme) y el truncamiento (limitar la longitud de las secuencias). Esta estandarización asegura que los datos estén en el formato correcto para que el modelo transformer los procese eficientemente.

from datasets import load_dataset
from transformers import AutoTokenizer

# Load IMDb dataset
dataset = load_dataset("imdb")

# Initialize tokenizer
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código:

1. Importación de Bibliotecas

  • El código importa dos bibliotecas esenciales: 'datasets' para cargar el conjunto de datos IMDb y 'AutoTokenizer' de transformers para el preprocesamiento de texto

2. Carga del Conjunto de Datos

  • El código carga el conjunto de datos IMDb utilizando la biblioteca datasets de Hugging Face, que contiene 50,000 reseñas de películas divididas entre sentimientos positivos y negativos

3. Inicialización del Tokenizador

  • Inicializa un tokenizador DistilBERT, que es una versión más ligera de BERT, utilizando el modelo "distilbert-base-uncased"

4. Función de Tokenización

  • El código define una función de tokenización que procesa los datos de texto con estas especificaciones:
  • Truncamiento: Recorta el texto que es demasiado largo
  • Relleno: Hace que todas las secuencias tengan la misma longitud (256 tokens)
  • Longitud máxima: Establece la longitud máxima de secuencia en 256 tokens

5. Procesamiento del Conjunto de Datos

  • Finalmente, aplica la función de tokenización a todo el conjunto de datos utilizando la función map con procesamiento por lotes habilitado

Este paso de preprocesamiento es crucial ya que estandariza los datos de texto en un formato que el modelo transformer puede procesar eficientemente

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utiliza la biblioteca datasets de Hugging Face para cargar y preprocesar el conjunto de datos IMDb. Esta biblioteca proporciona una interfaz simple para acceder y manipular conjuntos de datos, facilitando el trabajo con colecciones de datos a gran escala. El paso de preprocesamiento implica cargar los datos de texto sin procesar, convertirlos a un formato adecuado para el aprendizaje automático y prepararlos para el entrenamiento del modelo.

La biblioteca maneja automáticamente tareas comunes de preprocesamiento como la tokenización (dividir el texto en unidades más pequeñas), el relleno (hacer que las secuencias tengan una longitud uniforme) y el truncamiento (limitar la longitud de las secuencias). Esta estandarización asegura que los datos estén en el formato correcto para que el modelo transformer los procese eficientemente.

from datasets import load_dataset
from transformers import AutoTokenizer

# Load IMDb dataset
dataset = load_dataset("imdb")

# Initialize tokenizer
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código:

1. Importación de Bibliotecas

  • El código importa dos bibliotecas esenciales: 'datasets' para cargar el conjunto de datos IMDb y 'AutoTokenizer' de transformers para el preprocesamiento de texto

2. Carga del Conjunto de Datos

  • El código carga el conjunto de datos IMDb utilizando la biblioteca datasets de Hugging Face, que contiene 50,000 reseñas de películas divididas entre sentimientos positivos y negativos

3. Inicialización del Tokenizador

  • Inicializa un tokenizador DistilBERT, que es una versión más ligera de BERT, utilizando el modelo "distilbert-base-uncased"

4. Función de Tokenización

  • El código define una función de tokenización que procesa los datos de texto con estas especificaciones:
  • Truncamiento: Recorta el texto que es demasiado largo
  • Relleno: Hace que todas las secuencias tengan la misma longitud (256 tokens)
  • Longitud máxima: Establece la longitud máxima de secuencia en 256 tokens

5. Procesamiento del Conjunto de Datos

  • Finalmente, aplica la función de tokenización a todo el conjunto de datos utilizando la función map con procesamiento por lotes habilitado

Este paso de preprocesamiento es crucial ya que estandariza los datos de texto en un formato que el modelo transformer puede procesar eficientemente

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utiliza la biblioteca datasets de Hugging Face para cargar y preprocesar el conjunto de datos IMDb. Esta biblioteca proporciona una interfaz simple para acceder y manipular conjuntos de datos, facilitando el trabajo con colecciones de datos a gran escala. El paso de preprocesamiento implica cargar los datos de texto sin procesar, convertirlos a un formato adecuado para el aprendizaje automático y prepararlos para el entrenamiento del modelo.

La biblioteca maneja automáticamente tareas comunes de preprocesamiento como la tokenización (dividir el texto en unidades más pequeñas), el relleno (hacer que las secuencias tengan una longitud uniforme) y el truncamiento (limitar la longitud de las secuencias). Esta estandarización asegura que los datos estén en el formato correcto para que el modelo transformer los procese eficientemente.

from datasets import load_dataset
from transformers import AutoTokenizer

# Load IMDb dataset
dataset = load_dataset("imdb")

# Initialize tokenizer
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código:

1. Importación de Bibliotecas

  • El código importa dos bibliotecas esenciales: 'datasets' para cargar el conjunto de datos IMDb y 'AutoTokenizer' de transformers para el preprocesamiento de texto

2. Carga del Conjunto de Datos

  • El código carga el conjunto de datos IMDb utilizando la biblioteca datasets de Hugging Face, que contiene 50,000 reseñas de películas divididas entre sentimientos positivos y negativos

3. Inicialización del Tokenizador

  • Inicializa un tokenizador DistilBERT, que es una versión más ligera de BERT, utilizando el modelo "distilbert-base-uncased"

4. Función de Tokenización

  • El código define una función de tokenización que procesa los datos de texto con estas especificaciones:
  • Truncamiento: Recorta el texto que es demasiado largo
  • Relleno: Hace que todas las secuencias tengan la misma longitud (256 tokens)
  • Longitud máxima: Establece la longitud máxima de secuencia en 256 tokens

5. Procesamiento del Conjunto de Datos

  • Finalmente, aplica la función de tokenización a todo el conjunto de datos utilizando la función map con procesamiento por lotes habilitado

Este paso de preprocesamiento es crucial ya que estandariza los datos de texto en un formato que el modelo transformer puede procesar eficientemente

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utiliza la biblioteca datasets de Hugging Face para cargar y preprocesar el conjunto de datos IMDb. Esta biblioteca proporciona una interfaz simple para acceder y manipular conjuntos de datos, facilitando el trabajo con colecciones de datos a gran escala. El paso de preprocesamiento implica cargar los datos de texto sin procesar, convertirlos a un formato adecuado para el aprendizaje automático y prepararlos para el entrenamiento del modelo.

La biblioteca maneja automáticamente tareas comunes de preprocesamiento como la tokenización (dividir el texto en unidades más pequeñas), el relleno (hacer que las secuencias tengan una longitud uniforme) y el truncamiento (limitar la longitud de las secuencias). Esta estandarización asegura que los datos estén en el formato correcto para que el modelo transformer los procese eficientemente.

from datasets import load_dataset
from transformers import AutoTokenizer

# Load IMDb dataset
dataset = load_dataset("imdb")

# Initialize tokenizer
model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código:

1. Importación de Bibliotecas

  • El código importa dos bibliotecas esenciales: 'datasets' para cargar el conjunto de datos IMDb y 'AutoTokenizer' de transformers para el preprocesamiento de texto

2. Carga del Conjunto de Datos

  • El código carga el conjunto de datos IMDb utilizando la biblioteca datasets de Hugging Face, que contiene 50,000 reseñas de películas divididas entre sentimientos positivos y negativos

3. Inicialización del Tokenizador

  • Inicializa un tokenizador DistilBERT, que es una versión más ligera de BERT, utilizando el modelo "distilbert-base-uncased"

4. Función de Tokenización

  • El código define una función de tokenización que procesa los datos de texto con estas especificaciones:
  • Truncamiento: Recorta el texto que es demasiado largo
  • Relleno: Hace que todas las secuencias tengan la misma longitud (256 tokens)
  • Longitud máxima: Establece la longitud máxima de secuencia en 256 tokens

5. Procesamiento del Conjunto de Datos

  • Finalmente, aplica la función de tokenización a todo el conjunto de datos utilizando la función map con procesamiento por lotes habilitado

Este paso de preprocesamiento es crucial ya que estandariza los datos de texto en un formato que el modelo transformer puede procesar eficientemente