Menu iconMenu icon
NLP con Transformadores: Fundamentos y Aplicaciones Básicas

Proyecto 1: Análisis de Sentimientos con BERT

6. Paso 3: Tokenización del Conjunto de Datos

BERT requiere una entrada tokenizada, así que utilizaremos su tokenizador para preprocesar el texto.

Ejemplo de Código: Tokenización

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=128)

# Apply tokenization
tokenized_train = train_data.map(tokenize_function, batched=True)
tokenized_test = test_data.map(tokenize_function, batched=True)

6. Paso 3: Tokenización del Conjunto de Datos

BERT requiere una entrada tokenizada, así que utilizaremos su tokenizador para preprocesar el texto.

Ejemplo de Código: Tokenización

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=128)

# Apply tokenization
tokenized_train = train_data.map(tokenize_function, batched=True)
tokenized_test = test_data.map(tokenize_function, batched=True)

6. Paso 3: Tokenización del Conjunto de Datos

BERT requiere una entrada tokenizada, así que utilizaremos su tokenizador para preprocesar el texto.

Ejemplo de Código: Tokenización

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=128)

# Apply tokenization
tokenized_train = train_data.map(tokenize_function, batched=True)
tokenized_test = test_data.map(tokenize_function, batched=True)

6. Paso 3: Tokenización del Conjunto de Datos

BERT requiere una entrada tokenizada, así que utilizaremos su tokenizador para preprocesar el texto.

Ejemplo de Código: Tokenización

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize dataset
def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=128)

# Apply tokenization
tokenized_train = train_data.map(tokenize_function, batched=True)
tokenized_test = test_data.map(tokenize_function, batched=True)