Proyecto 4: Pipeline de Reconocimiento de Entidades Nombradas (NER) con Ajuste Fino Personalizado
Paso 5: Construir el Pipeline NER
Crear un pipeline que manejará tres tareas esenciales en secuencia:
- Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
- Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
- Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada
Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.
from transformers import pipeline
# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")
# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)
# Print recognized entities
for entity in entities:
print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")
Aquí se detalla lo que hace el código:
1. Configuración del Pipeline
- Importa el módulo pipeline de la biblioteca transformers
- Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
- Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens
2. Procesamiento de Texto
- Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
- Procesa el texto a través del pipeline NER para identificar entidades
3. Formato de Salida
- Recorre las entidades detectadas
- Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción
Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.
Paso 5: Construir el Pipeline NER
Crear un pipeline que manejará tres tareas esenciales en secuencia:
- Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
- Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
- Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada
Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.
from transformers import pipeline
# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")
# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)
# Print recognized entities
for entity in entities:
print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")
Aquí se detalla lo que hace el código:
1. Configuración del Pipeline
- Importa el módulo pipeline de la biblioteca transformers
- Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
- Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens
2. Procesamiento de Texto
- Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
- Procesa el texto a través del pipeline NER para identificar entidades
3. Formato de Salida
- Recorre las entidades detectadas
- Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción
Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.
Paso 5: Construir el Pipeline NER
Crear un pipeline que manejará tres tareas esenciales en secuencia:
- Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
- Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
- Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada
Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.
from transformers import pipeline
# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")
# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)
# Print recognized entities
for entity in entities:
print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")
Aquí se detalla lo que hace el código:
1. Configuración del Pipeline
- Importa el módulo pipeline de la biblioteca transformers
- Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
- Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens
2. Procesamiento de Texto
- Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
- Procesa el texto a través del pipeline NER para identificar entidades
3. Formato de Salida
- Recorre las entidades detectadas
- Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción
Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.
Paso 5: Construir el Pipeline NER
Crear un pipeline que manejará tres tareas esenciales en secuencia:
- Procesar el texto de entrada dividiéndolo en tokens que el modelo pueda entender
- Utilizar el modelo ajustado para predecir e identificar entidades dentro del texto, incluyendo sus tipos y puntuaciones de confianza
- Mapear estas predicciones de vuelta al texto original, asegurando que los límites de las entidades y las clasificaciones estén correctamente alineados con la estructura del texto de entrada
Este pipeline servirá como el componente central para transformar texto sin procesar en información estructurada de entidades que puede ser utilizada en aplicaciones posteriores.
from transformers import pipeline
# Load fine-tuned model
ner_pipeline = pipeline("ner", model="./results", tokenizer=model_name, aggregation_strategy="simple")
# Process text input
text = "Barack Obama was born in Hawaii."
entities = ner_pipeline(text)
# Print recognized entities
for entity in entities:
print(f"Entity: {entity['word']}, Type: {entity['entity_group']}, Confidence: {entity['score']:.2f}")
Aquí se detalla lo que hace el código:
1. Configuración del Pipeline
- Importa el módulo pipeline de la biblioteca transformers
- Crea un pipeline NER utilizando el modelo previamente ajustado almacenado en "./results"
- Configura el tokenizador y utiliza la estrategia de agregación "simple" para combinar subtokens
2. Procesamiento de Texto
- Toma un texto de ejemplo como entrada ("Barack Obama was born in Hawaii.")
- Procesa el texto a través del pipeline NER para identificar entidades
3. Formato de Salida
- Recorre las entidades detectadas
- Para cada entidad, muestra tres elementos de información:
- La palabra o frase identificada como entidad
- El tipo de entidad (por ejemplo, PER para persona, LOC para ubicación)
- Una puntuación de confianza que indica el nivel de certeza del modelo en su predicción
Este pipeline funciona como componente central para convertir texto sin procesar en información estructurada de entidades que puede utilizarse en diversas aplicaciones.