Click here to view the next lesson.

Proyecto 4: Pipeline de Reconocimiento de Entidades Nombradas (NER) con Ajuste Fino Personalizado

Paso 5: Construir el Pipeline NER

Crear un pipeline que manejará tres tareas esenciales en secuencia:

Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada

Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.

from transformers import pipeline

# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")

# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)

# Print recognized entities
for entity in entities:
    print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")

Aquí se detalla lo que hace el código:

1. Configuración del Pipeline

Importa el módulo pipeline de la biblioteca transformers
Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens

2. Procesamiento de Texto

Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
Procesa el texto a través del pipeline NER para identificar entidades

3. Formato de Salida

Recorre las entidades detectadas
Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción

Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.

Paso 5: Construir el Pipeline NER

Crear un pipeline que manejará tres tareas esenciales en secuencia:

Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada

Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.

from transformers import pipeline

# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")

# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)

# Print recognized entities
for entity in entities:
    print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")

Aquí se detalla lo que hace el código:

1. Configuración del Pipeline

Importa el módulo pipeline de la biblioteca transformers
Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens

2. Procesamiento de Texto

Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
Procesa el texto a través del pipeline NER para identificar entidades

3. Formato de Salida

Recorre las entidades detectadas
Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción

Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.

Paso 5: Construir el Pipeline NER

Crear un pipeline que manejará tres tareas esenciales en secuencia:

Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada

Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.

from transformers import pipeline

# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")

# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)

# Print recognized entities
for entity in entities:
    print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")

Aquí se detalla lo que hace el código:

1. Configuración del Pipeline

Importa el módulo pipeline de la biblioteca transformers
Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens

2. Procesamiento de Texto

Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
Procesa el texto a través del pipeline NER para identificar entidades

3. Formato de Salida

Recorre las entidades detectadas
Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción

Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.

Paso 5: Construir el Pipeline NER

Crear un pipeline que manejará tres tareas esenciales en secuencia:

Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada

Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.

from transformers import pipeline

# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")

# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)

# Print recognized entities
for entity in entities:
    print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")

Aquí se detalla lo que hace el código:

1. Configuración del Pipeline

Importa el módulo pipeline de la biblioteca transformers
Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens

2. Procesamiento de Texto

Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
Procesa el texto a través del pipeline NER para identificar entidades

3. Formato de Salida

Recorre las entidades detectadas
Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción

Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.

Compra este libro