Click here to view the next lesson.

Project 2: News Categorization Using BERT

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

Toma el texto de entrada del conjunto de datos
Aplica relleno para asegurar que todas las entradas tengan la misma longitud
Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

Toma el texto de entrada del conjunto de datos
Aplica relleno para asegurar que todas las entradas tengan la misma longitud
Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

Toma el texto de entrada del conjunto de datos
Aplica relleno para asegurar que todas las entradas tengan la misma longitud
Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

Toma el texto de entrada del conjunto de datos
Aplica relleno para asegurar que todas las entradas tengan la misma longitud
Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Purchase this book