Proyecto 4: Pipeline de Reconocimiento de Entidades Nombradas (NER) con Ajuste Fino Personalizado
Paso 2: Cargar y Preprocesar el Conjunto de Datos
Utilice la biblioteca datasets
de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.
from datasets import load_dataset
# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")
# Example: Inspect the dataset
print(dataset["train"][0])
Analicemos este código:
- Primero, importamos la función
load_dataset
de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
- Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
- Personas (PER)
- Ubicaciones (LOC)
- Organizaciones (ORG)
- Entidades misceláneas (MISC)
- El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
- "tokens": Contiene las palabras individuales en el texto
- "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token
Ejemplo de Salida:
{
"tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
"ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}
Paso 2: Cargar y Preprocesar el Conjunto de Datos
Utilice la biblioteca datasets
de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.
from datasets import load_dataset
# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")
# Example: Inspect the dataset
print(dataset["train"][0])
Analicemos este código:
- Primero, importamos la función
load_dataset
de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
- Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
- Personas (PER)
- Ubicaciones (LOC)
- Organizaciones (ORG)
- Entidades misceláneas (MISC)
- El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
- "tokens": Contiene las palabras individuales en el texto
- "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token
Ejemplo de Salida:
{
"tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
"ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}
Paso 2: Cargar y Preprocesar el Conjunto de Datos
Utilice la biblioteca datasets
de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.
from datasets import load_dataset
# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")
# Example: Inspect the dataset
print(dataset["train"][0])
Analicemos este código:
- Primero, importamos la función
load_dataset
de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
- Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
- Personas (PER)
- Ubicaciones (LOC)
- Organizaciones (ORG)
- Entidades misceláneas (MISC)
- El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
- "tokens": Contiene las palabras individuales en el texto
- "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token
Ejemplo de Salida:
{
"tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
"ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}
Paso 2: Cargar y Preprocesar el Conjunto de Datos
Utilice la biblioteca datasets
de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.
from datasets import load_dataset
# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")
# Example: Inspect the dataset
print(dataset["train"][0])
Analicemos este código:
- Primero, importamos la función
load_dataset
de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
- Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
- Personas (PER)
- Ubicaciones (LOC)
- Organizaciones (ORG)
- Entidades misceláneas (MISC)
- El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
- "tokens": Contiene las palabras individuales en el texto
- "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token
Ejemplo de Salida:
{
"tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
"ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}