Menu iconMenu icon
NLP with Transformers: Fundamentals and Core Applications

Project 2: News Categorization Using BERT

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

  • Toma el texto de entrada del conjunto de datos
  • Aplica relleno para asegurar que todas las entradas tengan la misma longitud
  • Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

  • Toma el texto de entrada del conjunto de datos
  • Aplica relleno para asegurar que todas las entradas tengan la misma longitud
  • Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

  • Toma el texto de entrada del conjunto de datos
  • Aplica relleno para asegurar que todas las entradas tengan la misma longitud
  • Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.

5. Preprocesamiento del Conjunto de Datos

Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.

from transformers import BertTokenizer

# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenize the dataset
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Analicemos este código que preprocesa los datos para BERT:

1. Importar e Inicializar el Tokenizador:

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.

2. Definir Función de Tokenización:

def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

Esta función:

  • Toma el texto de entrada del conjunto de datos
  • Aplica relleno para asegurar que todas las entradas tengan la misma longitud
  • Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo

3. Aplicar Tokenización:

tokenized_datasets = dataset.map(tokenize_function, batched=True)

Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.