4. Paso 2: Carga y Preparación del Conjunto de Datos

Para este proyecto, necesitaremos un conjunto de datos sustancial para entrenar nuestro modelo de análisis de sentimientos de manera efectiva. Hay varias opciones excelentes disponibles:

El Conjunto de Datos de Reseñas de Películas IMDB: Este es un conjunto de datos de referencia ampliamente utilizado que contiene 50,000 reseñas de películas etiquetadas como positivas o negativas. Es particularmente útil porque contiene texto de formato largo con opiniones matizadas, similar a la retroalimentación real de clientes.
Conjuntos de Datos de Retroalimentación de Clientes de Kaggle: Kaggle ofrece varios conjuntos de datos de retroalimentación de clientes de diferentes industrias, incluyendo reseñas de comercio electrónico, retroalimentación de productos y evaluaciones de servicios. Estos conjuntos de datos suelen venir con etiquetas de sentimiento y metadatos adicionales que pueden enriquecer tu análisis.
Conjuntos de Datos de Hugging Face: A través de la biblioteca Datasets de Hugging Face, puedes acceder a numerosos conjuntos de datos preprocesados diseñados específicamente para tareas de análisis de sentimientos. Estos incluyen:
- Reseñas de Productos de Amazon
- Reseñas de Yelp
- Conjunto de Datos de Análisis de Sentimientos de Twitter
- Conjunto de Datos de Sentimientos Multi-Dominio

La elección del conjunto de datos puede impactar significativamente en el rendimiento de tu modelo, así que considera seleccionar uno que se ajuste estrechamente a tu caso de uso previsto en términos de longitud de texto, estilo de escritura y vocabulario específico del dominio.

Cargar el Conjunto de Datos

from datasets import load_dataset

# Load a sentiment analysis dataset (e.g., IMDB reviews)
dataset = load_dataset('imdb')

# Check the dataset structure
print(dataset)

Analicemos este código:

Primero, importamos el módulo necesario:

from datasets import load_dataset

Luego cargamos el conjunto de datos IMDB:

dataset = load_dataset('imdb')

Esto carga el Conjunto de Datos de Reseñas de Películas IMDB, que es un conjunto de datos de referencia que contiene reseñas de películas etiquetadas como positivas o negativas.

Finalmente, imprimimos la estructura del conjunto de datos:

print(dataset)

Al ejecutar, este código cargará un conjunto de datos que contiene divisiones de entrenamiento y prueba, donde cada entrada incluye reseñas de texto y sus etiquetas de sentimiento correspondientes (0 para negativo, 1 para positivo).

Este código representa el paso inicial en el proceso de análisis de sentimientos, donde preparamos nuestros datos para entrenar un modelo BERT para clasificar la retroalimentación de los clientes.

El conjunto de datos contendrá una división de entrenamiento y prueba, con reseñas de texto y etiquetas de sentimiento (por ejemplo, 0 para negativo, 1 para positivo).

Preprocesar el Conjunto de Datos

Antes de usar los datos con BERT, deben ser tokenizados.

from transformers import BertTokenizer

# Load the BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código:

1. Importación e Inicialización del Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto importa el tokenizador BERT y carga la versión sin distinción entre mayúsculas y minúsculas, lo que significa que convierte todo el texto a minúsculas.

2. Creación de la Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función procesa los datos de texto mediante:

La conversión del texto en tokens que BERT puede entender
El uso de relleno para asegurar que todas las secuencias tengan la misma longitud
El recorte de secuencias más largas para ajustarse a la longitud máxima del modelo

3. Aplicación de la Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Esto aplica la función de tokenización a todo el conjunto de datos, convirtiendo el texto en IDs de tokens numéricos que BERT puede procesar. El parámetro batched=True permite el procesamiento eficiente de múltiples ejemplos a la vez.