Project 2: News Categorization Using BERT
5. Preprocesamiento del Conjunto de Datos
Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.
from transformers import BertTokenizer
# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# Tokenize the dataset
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Analicemos este código que preprocesa los datos para BERT:
1. Importar e Inicializar el Tokenizador:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.
2. Definir Función de Tokenización:
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
Esta función:
- Toma el texto de entrada del conjunto de datos
- Aplica relleno para asegurar que todas las entradas tengan la misma longitud
- Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo
3. Aplicar Tokenización:
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.
5. Preprocesamiento del Conjunto de Datos
Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.
from transformers import BertTokenizer
# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# Tokenize the dataset
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Analicemos este código que preprocesa los datos para BERT:
1. Importar e Inicializar el Tokenizador:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.
2. Definir Función de Tokenización:
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
Esta función:
- Toma el texto de entrada del conjunto de datos
- Aplica relleno para asegurar que todas las entradas tengan la misma longitud
- Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo
3. Aplicar Tokenización:
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.
5. Preprocesamiento del Conjunto de Datos
Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.
from transformers import BertTokenizer
# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# Tokenize the dataset
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Analicemos este código que preprocesa los datos para BERT:
1. Importar e Inicializar el Tokenizador:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.
2. Definir Función de Tokenización:
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
Esta función:
- Toma el texto de entrada del conjunto de datos
- Aplica relleno para asegurar que todas las entradas tengan la misma longitud
- Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo
3. Aplicar Tokenización:
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.
5. Preprocesamiento del Conjunto de Datos
Antes de alimentar los datos a BERT, necesitamos tokenizar el texto usando el tokenizador de BERT.
from transformers import BertTokenizer
# Load BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# Tokenize the dataset
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Analicemos este código que preprocesa los datos para BERT:
1. Importar e Inicializar el Tokenizador:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
Esto carga el tokenizador de BERT, específicamente la versión sin distinción entre mayúsculas y minúsculas que trata las letras mayúsculas y minúsculas de la misma manera.
2. Definir Función de Tokenización:
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
Esta función:
- Toma el texto de entrada del conjunto de datos
- Aplica relleno para asegurar que todas las entradas tengan la misma longitud
- Utiliza truncamiento para manejar textos que excedan la longitud máxima del modelo
3. Aplicar Tokenización:
tokenized_datasets = dataset.map(tokenize_function, batched=True)
Este paso convierte el texto sin procesar en IDs de tokens que BERT puede entender. El relleno asegura que todas las entradas tengan la misma longitud, y el truncamiento maneja los textos más largos que el tamaño máximo de entrada del modelo.