Menu iconMenu icon
NLP con Transformadores: Técnicas Avanzadas y Aplicaciones Multimodales

Proyecto 4: Pipeline de Reconocimiento de Entidades Nombradas (NER) con Ajuste Fino Personalizado

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utilice la biblioteca datasets de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.

from datasets import load_dataset

# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")

# Example: Inspect the dataset
print(dataset["train"][0])

Analicemos este código:

  1. Primero, importamos la función load_dataset de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
  1. Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
  • Personas (PER)
  • Ubicaciones (LOC)
  • Organizaciones (ORG)
  • Entidades misceláneas (MISC)
  1. El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
  • "tokens": Contiene las palabras individuales en el texto
  • "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token

Ejemplo de Salida:

{
  "tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
  "ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utilice la biblioteca datasets de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.

from datasets import load_dataset

# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")

# Example: Inspect the dataset
print(dataset["train"][0])

Analicemos este código:

  1. Primero, importamos la función load_dataset de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
  1. Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
  • Personas (PER)
  • Ubicaciones (LOC)
  • Organizaciones (ORG)
  • Entidades misceláneas (MISC)
  1. El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
  • "tokens": Contiene las palabras individuales en el texto
  • "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token

Ejemplo de Salida:

{
  "tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
  "ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utilice la biblioteca datasets de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.

from datasets import load_dataset

# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")

# Example: Inspect the dataset
print(dataset["train"][0])

Analicemos este código:

  1. Primero, importamos la función load_dataset de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
  1. Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
  • Personas (PER)
  • Ubicaciones (LOC)
  • Organizaciones (ORG)
  • Entidades misceláneas (MISC)
  1. El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
  • "tokens": Contiene las palabras individuales en el texto
  • "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token

Ejemplo de Salida:

{
  "tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
  "ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}

Paso 2: Cargar y Preprocesar el Conjunto de Datos

Utilice la biblioteca datasets de Hugging Face para cargar y preprocesar un conjunto de datos NER. Esta biblioteca proporciona herramientas convenientes para trabajar con conjuntos de datos de aprendizaje automático e incluye soporte integrado para conjuntos de datos NER populares como CoNLL-2003. La biblioteca maneja la carga de datos, el almacenamiento en caché y el preprocesamiento de forma automática, facilitando la concentración en el desarrollo del modelo. También proporciona métodos para la validación, filtrado y transformación de datos que son esenciales para preparar los datos de entrenamiento NER. Los pasos de preprocesamiento típicamente incluyen la tokenización, alineación de etiquetas y la conversión de los datos al formato requerido para el entrenamiento del modelo.

from datasets import load_dataset

# Load CoNLL-2003 dataset
dataset = load_dataset("conll2003")

# Example: Inspect the dataset
print(dataset["train"][0])

Analicemos este código:

  1. Primero, importamos la función load_dataset de la biblioteca datasets de Hugging Face:
from datasets import load_dataset
  1. Luego cargamos el conjunto de datos CoNLL-2003, que es un conjunto de datos estándar para tareas NER. Este conjunto de datos contiene texto anotado con cuatro tipos de entidades:
  • Personas (PER)
  • Ubicaciones (LOC)
  • Organizaciones (ORG)
  • Entidades misceláneas (MISC)
  1. El código imprime un ejemplo del conjunto de entrenamiento, que muestra el formato de los datos:
  • "tokens": Contiene las palabras individuales en el texto
  • "ner_tags": Contiene etiquetas numéricas correspondientes que identifican el tipo de entidad para cada token

Ejemplo de Salida:

{
  "tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."],
  "ner_tags": [3, 0, 1, 0, 0, 0, 1, 0, 0, 0]
}