Click here to view the next lesson.

Capítulo 6: Aplicaciones centrales de PLN

6.2 Reconocimiento de Entidades Nombradas (REN)

El Reconocimiento de Entidades Nombradas (REN) es una tarea fundamental en el procesamiento del lenguaje natural (PLN) que identifica y clasifica automáticamente elementos específicos dentro del texto en categorías predefinidas. Estas categorías típicamente incluyen:

Nombres de personas (como políticos, autores o figuras históricas)
Organizaciones (empresas, instituciones, agencias gubernamentales)
Ubicaciones (países, ciudades, puntos de referencia)
Expresiones temporales (fechas, horas, duraciones)
Cantidades (valores monetarios, porcentajes, mediciones)
Nombres de productos (marcas, modelos, servicios)

Para ilustrar cómo funciona el REN en la práctica, considere esta oración de ejemplo:

"Apple Inc. lanzó el iPhone en California el 9 de enero de 2007,"

Al procesar esta oración, un sistema REN identifica:

"Apple Inc." como una Organización - distinguiéndola de la fruta gracias a la comprensión contextual
"California" como una Ubicación - reconociéndola como una entidad geográfica
"9 de enero de 2007" como una Fecha - analizando y estandarizando la expresión temporal

El REN sirve como un componente crucial en varias aplicaciones del mundo real:

Extracción de Información: Obtención automática de datos estructurados a partir de documentos de texto no estructurados
Sistemas de Respuesta a Preguntas: Comprensión de entidades mencionadas en preguntas para proporcionar respuestas precisas
Procesamiento de Documentos: Organización y categorización de documentos basados en las entidades mencionadas
Recomendación de Contenido: Identificación de contenido relevante basado en relaciones entre entidades
Monitoreo de Cumplimiento: Detección y seguimiento de menciones de entidades reguladas o información sensible

La precisión de los sistemas REN ha mejorado significativamente con los enfoques modernos de aprendizaje automático, particularmente a través del uso de la comprensión contextual y el entrenamiento específico por dominio.

6.2.1 Cómo los Transformers Mejoran el REN

Los sistemas tradicionales de REN se construyeron sobre dos enfoques principales: sistemas basados en reglas que utilizaban patrones y reglas manuales, y modelos estadísticos como los Campos Aleatorios Condicionales (CRF) que dependían de la ingeniería de características. Si bien estos métodos funcionaban para casos simples, enfrentaban limitaciones significativas:

Los sistemas basados en reglas requerían un extenso esfuerzo manual para crear y mantener las reglas
Los modelos estadísticos necesitaban una cuidadosa ingeniería de características para cada nuevo dominio
Ambos enfoques tenían dificultades con la ambigüedad contextual
El rendimiento se degradaba significativamente cuando se aplicaban a nuevos dominios o estilos de texto

La introducción de los Transformers, particularmente modelos como BERT, marcó un cambio revolucionario en la tecnología REN. Estos modelos trajeron varias mejoras revolucionarias:

1. Captura del Contexto

A diferencia de los sistemas anteriores que procesaban texto secuencialmente, los Transformers revolucionan el análisis de texto al procesar oraciones completas simultáneamente utilizando mecanismos de auto-atención. Este enfoque de procesamiento paralelo permite que el modelo pondere la importancia de diferentes palabras en relación entre sí al mismo tiempo, en lugar de analizarlas una tras otra.

El mecanismo de auto-atención funciona creando puntuaciones de relación entre todas las palabras en una oración, permitiendo que el modelo comprenda relaciones contextuales complejas y resuelva ambigüedades naturalmente. Por ejemplo, al analizar la palabra "Apple", el modelo considera simultáneamente todas las otras palabras en la oración y sus relaciones para determinar su significado.

Consideremos estos ejemplos contrastantes:

En "Apple publicó nuevas directrices", el modelo reconoce "Apple" como una empresa porque considera el verbo "publicó" y el objeto "directrices", que típicamente se asocian con acciones corporativas.
En "Los manzanos dan fruta", el modelo identifica "manzano" como un árbol frutal porque analiza las palabras "dan" y "fruta", que proporcionan contexto botánico.

Esta comprensión contextual se logra a través de múltiples cabezales de atención que pueden enfocarse en diferentes aspectos de las relaciones entre palabras, permitiendo que el modelo capture varios patrones semánticos y sintácticos simultáneamente. Este sofisticado enfoque para el análisis contextual representa un avance significativo sobre los métodos tradicionales de procesamiento secuencial.

2. Comprensión Bidireccional

Los modelos tradicionales procesaban texto secuencialmente, analizando palabras una tras otra en una sola dirección (ya sea de izquierda a derecha o de derecha a izquierda). Este enfoque lineal limitaba severamente su capacidad para comprender el contexto y las relaciones entre palabras que aparecen distantes en una oración.

Los Transformers revolucionaron este enfoque implementando un análisis verdaderamente bidireccional. A diferencia de sus predecesores, procesan todo el texto simultáneamente, permitiéndoles:

Considerar tanto las palabras anteriores como las posteriores al mismo tiempo
Ponderar la importancia de las palabras independientemente de su posición en la oración
Mantener la comprensión contextual a través de largas distancias en el texto
Construir una comprensión integral de las relaciones entre todas las palabras

Esta capacidad bidireccional es particularmente poderosa para el reconocimiento de entidades. Consideremos estos ejemplos:

"El edificio antiguo, que estaba ubicado en París, fue demolido" - El modelo puede identificar correctamente "París" como una ubicación a pesar de la estructura compleja de la oración y las cláusulas intermedias.

"París, quien había ganado la competencia, celebró con su equipo" - La misma palabra "París" es correctamente identificada como un nombre de persona porque el modelo considera el contexto circundante ("quien había ganado" y "su equipo").

Este sofisticado análisis bidireccional permite que los Transformers manejen estructuras gramaticales complejas, cláusulas anidadas y referencias ambiguas que confundirían a los modelos unidireccionales tradicionales. El resultado es un reconocimiento de entidades significativamente más preciso y matizado, especialmente en textos complejos del mundo real.

3. Aprendizaje por Transferencia

Quizás la ventaja más significativa de los Transformers en REN es su capacidad para aprovechar el aprendizaje por transferencia. Esta poderosa capacidad funciona en dos etapas clave:

Primero, modelos como BERT se someten a un pre-entrenamiento extensivo en corpus de texto masivos (a menudo miles de millones de palabras) a través de diversos temas y estilos de escritura. Durante esta fase, aprenden patrones fundamentales del lenguaje, gramática y relaciones contextuales sin estar específicamente entrenados para tareas de REN.

Segundo, estos modelos pre-entrenados pueden ser eficientemente ajustados para tareas específicas de REN usando cantidades relativamente pequeñas de datos etiquetados - a menudo solo unos cientos de ejemplos. Este proceso es notablemente eficiente porque el modelo ya comprende los fundamentos del lenguaje y solo necesita adaptar su conocimiento existente para reconocer tipos específicos de entidades.

Este enfoque de dos etapas aporta varios beneficios cruciales:

Reducción dramática en tiempo de entrenamiento y recursos computacionales comparado con entrenar modelos desde cero
Mayor precisión incluso con datos de entrenamiento limitados específicos del dominio
Mayor flexibilidad en la adaptación a nuevos dominios o tipos de entidades
Mejor generalización a través de diferentes estilos de texto y contextos

Por ejemplo, un modelo BERT pre-entrenado en texto general puede ser rápidamente adaptado para reconocer entidades especializadas en varios campos:

Dominio médico: nombres de enfermedades, medicamentos, procedimientos
Dominio legal: citas judiciales, términos legales, referencias jurisdiccionales
Dominio técnico: lenguajes de programación, componentes de software, especificaciones técnicas
Dominio financiero: nombres de empresas, instrumentos financieros, terminología de mercado

Esta adaptabilidad es particularmente valiosa para organizaciones que necesitan desarrollar sistemas REN personalizados pero carecen de conjuntos de datos etiquetados extensos o recursos computacionales.

Implementación de REN con Transformers

Utilizaremos la biblioteca Hugging Face Transformers para implementar REN usando un modelo BERT pre-entrenado ajustado para clasificación de tokens.

Ejemplo de Código: Reconocimiento de Entidades Nombradas con BERT

from transformers import pipeline
import logging
from typing import List, Dict, Any
import sys

class NERProcessor:
    def __init__(self):
        try:
            # Initialize the NER pipeline
            self.ner_pipeline = pipeline("ner", grouped_entities=True)
            logging.info("NER pipeline initialized successfully")
        except Exception as e:
            logging.error(f"Failed to initialize NER pipeline: {str(e)}")
            sys.exit(1)

    def process_text(self, text: str) -> List[Dict[str, Any]]:
        """
        Process text and extract named entities
        Args:
            text: Input text to analyze
        Returns:
            List of detected entities with their details
        """
        try:
            results = self.ner_pipeline(text)
            return results
        except Exception as e:
            logging.error(f"Error processing text: {str(e)}")
            return []

    def display_results(self, results: List[Dict[str, Any]]) -> None:
        """
        Display NER results in a formatted way
        Args:
            results: List of detected entities
        """
        print("\nNamed Entities:")
        print("-" * 50)
        for entity in results:
            print(f"Entity: {entity['word']}")
            print(f"Type: {entity['entity_group']}")
            print(f"Confidence Score: {entity['score']:.4f}")
            print("-" * 50)

def main():
    # Configure logging
    logging.basicConfig(level=logging.INFO)
    
    # Initialize processor
    processor = NERProcessor()
    
    # Example texts
    texts = [
        "Barack Obama was born in Hawaii and served as the 44th President of the United States.",
        "Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022."
    ]
    
    # Process each text
    for i, text in enumerate(texts, 1):
        print(f"\nProcessing Text {i}:")
        print(f"Input: {text}")
        
        results = processor.process_text(text)
        processor.display_results(results)

if __name__ == "__main__":
    main()

Analicemos los componentes clave y las mejoras:

Estructura basada en clases: El código está organizado en una clase NERProcessor, haciéndolo más mantenible y reutilizable.
Manejo de errores: Bloques try-except integrales para manejar de manera elegante los posibles errores durante la inicialización del pipeline y el procesamiento de texto.
Sugerencias de tipo: Se agregaron sugerencias de tipo de Python para mejorar la documentación del código y el soporte del IDE.
Registro: Se implementó un registro apropiado en lugar de simples declaraciones print para mejor depuración y monitoreo.
Salida formateada: Se mejoró la visualización de resultados con formato claro y separación entre entidades.
Procesamiento de múltiples textos: Se agregó la capacidad de procesar múltiples ejemplos de texto en una sola ejecución.

El código demuestra cómo usar la biblioteca Hugging Face Transformers para el Reconocimiento de Entidades Nombradas, que puede identificar entidades como personas (PER), ubicaciones (LOC) y organizaciones (ORG) en el texto.

Cuando ejecutes este código, procesará los textos de ejemplo y mostrará información detallada sobre cada entidad identificada, incluyendo el tipo de entidad y el puntaje de confianza, similar al ejemplo original pero con mejor organización y manejo de errores.

Salida esperada:

Processing Text 1:
Input: Barack Obama was born in Hawaii and served as the 44th President of the United States.

Named Entities:
--------------------------------------------------
Entity: Barack Obama
Type: PER
Confidence Score: 0.9983
--------------------------------------------------
Entity: Hawaii
Type: LOC
Confidence Score: 0.9945
--------------------------------------------------
Entity: United States
Type: LOC
Confidence Score: 0.9967
--------------------------------------------------

Processing Text 2:
Input: Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022.

Named Entities:
--------------------------------------------------
Entity: Tesla
Type: ORG
Confidence Score: 0.9956
--------------------------------------------------
Entity: Elon Musk
Type: PER
Confidence Score: 0.9978
--------------------------------------------------
Entity: Twitter
Type: ORG
Confidence Score: 0.9934
--------------------------------------------------
Entity: $44 billion
Type: MONEY
Confidence Score: 0.9912
--------------------------------------------------
Entity: 2022
Type: DATE
Confidence Score: 0.9889
--------------------------------------------------

6.2.2 Ajuste Fino de un Transformer para REN

El ajuste fino implica adaptar un modelo pre-entrenado a un conjunto de datos REN específico del dominio mediante la actualización de los parámetros del modelo usando datos etiquetados del dominio objetivo. Este proceso permite que el modelo aprenda patrones de entidades específicos del dominio mientras mantiene su comprensión general del lenguaje. El proceso de ajuste fino típicamente requiere muchos menos datos y recursos computacionales en comparación con el entrenamiento desde cero, ya que el modelo ya cuenta con una base sólida en la comprensión del lenguaje.

Vamos a realizar un ajuste fino de BERT para REN usando el conjunto de datos CoNLL-2003, un conjunto de datos de referencia ampliamente utilizado para REN en inglés. Este conjunto de datos contiene artículos de noticias anotados manualmente con cuatro tipos de entidades: nombres de personas, ubicaciones, organizaciones y entidades misceláneas. El conjunto de datos es particularmente valioso porque proporciona una forma estandarizada de evaluar y comparar diferentes modelos REN, con pautas claras para la anotación de entidades y una distribución equilibrada de tipos de entidades.

Ejemplo de Código: Ajuste Fino de BERT

from transformers import (
    AutoTokenizer, 
    AutoModelForTokenClassification, 
    Trainer, 
    TrainingArguments,
    DataCollatorForTokenClassification
)
from datasets import load_dataset
import numpy as np
from seqeval.metrics import accuracy_score, f1_score
import logging
import torch

# Set up logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class NERTrainer:
    def __init__(self, model_name="bert-base-cased", num_labels=9):
        self.model_name = model_name
        self.num_labels = num_labels
        self.label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
        
        # Initialize model and tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForTokenClassification.from_pretrained(
            model_name, 
            num_labels=num_labels
        )
        
    def prepare_dataset(self):
        """Load and prepare the CoNLL-2003 dataset"""
        logger.info("Loading dataset...")
        dataset = load_dataset("conll2003")
        
        # Tokenize and align labels
        tokenized_dataset = dataset.map(
            self._tokenize_and_align_labels,
            batched=True,
            remove_columns=dataset["train"].column_names
        )
        
        return tokenized_dataset
    
    def _tokenize_and_align_labels(self, examples):
        """Tokenize inputs and align labels with tokens"""
        tokenized_inputs = self.tokenizer(
            examples["tokens"],
            truncation=True,
            is_split_into_words=True,
            padding="max_length",
            max_length=128
        )
        
        labels = []
        for i, label in enumerate(examples["ner_tags"]):
            word_ids = tokenized_inputs.word_ids(batch_index=i)
            previous_word_idx = None
            label_ids = []
            
            for word_idx in word_ids:
                if word_idx is None:
                    label_ids.append(-100)
                elif word_idx != previous_word_idx:
                    label_ids.append(label[word_idx])
                else:
                    label_ids.append(-100)
                previous_word_idx = word_idx
                
            labels.append(label_ids)
            
        tokenized_inputs["labels"] = labels
        return tokenized_inputs
    
    def compute_metrics(self, eval_preds):
        """Compute evaluation metrics"""
        predictions, labels = eval_preds
        predictions = np.argmax(predictions, axis=2)
        
        # Remove ignored index (special tokens)
        true_predictions = [
            [self.label_names[p] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        true_labels = [
            [self.label_names[l] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        
        return {
            'accuracy': accuracy_score(true_labels, true_predictions),
            'f1': f1_score(true_labels, true_predictions)
        }
    
    def train(self, batch_size=8, num_epochs=3, learning_rate=2e-5):
        """Train the model"""
        logger.info("Starting training preparation...")
        
        # Prepare dataset
        tokenized_dataset = self.prepare_dataset()
        
        # Define training arguments
        training_args = TrainingArguments(
            output_dir="./ner_results",
            evaluation_strategy="epoch",
            learning_rate=learning_rate,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            num_train_epochs=num_epochs,
            weight_decay=0.01,
            logging_dir='./logs',
            logging_steps=100,
            save_strategy="epoch",
            load_best_model_at_end=True,
            metric_for_best_model="f1"
        )
        
        # Initialize trainer
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=tokenized_dataset["train"],
            eval_dataset=tokenized_dataset["validation"],
            data_collator=DataCollatorForTokenClassification(self.tokenizer),
            compute_metrics=self.compute_metrics
        )
        
        logger.info("Starting training...")
        trainer.train()
        
        # Save the final model
        trainer.save_model("./final_model")
        logger.info("Training completed and model saved!")
        
        return trainer

def main():
    # Initialize trainer
    ner_trainer = NERTrainer()
    
    # Train model
    trainer = ner_trainer.train()
    
    # Example prediction
    test_text = "Apple CEO Tim Cook announced new products in California."
    inputs = ner_trainer.tokenizer(test_text, return_tensors="pt", truncation=True, padding=True)
    
    with torch.no_grad():
        outputs = ner_trainer.model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
        
    tokens = ner_trainer.tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Print results
    print("\nTest Prediction:")
    print("Text:", test_text)
    print("\nPredicted Entities:")
    current_entity = None
    current_text = []
    
    for token, pred in zip(tokens, predictions[0]):
        if pred != -100:  # Ignore special tokens
            label = ner_trainer.label_names[pred]
            if label != "O":
                if label.startswith("B-"):
                    if current_entity:
                        print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = None
                    current_text = []

if __name__ == "__main__":
    main()

Desglose y Explicación del Código:

Estructura de Clase
- El código está organizado en una clase NERTrainer para mejor modularidad y reusabilidad
- Incluye la inicialización del modelo y tokenizador con parámetros configurables
- Separa las responsabilidades en métodos distintos para la preparación de datos, entrenamiento y predicción
Preparación del Conjunto de Datos
- Carga el conjunto de datos CoNLL-2003, un punto de referencia estándar para NER
- Implementa una tokenización sofisticada con alineación apropiada de etiquetas
- Maneja apropiadamente los tokens especiales y la tokenización de subpalabras
Configuración del Entrenamiento
- Implementa argumentos completos de entrenamiento incluyendo:
  - Programación de tasa de aprendizaje
  - Estrategia de evaluación
  - Configuración de registro
  - Puntos de control del modelo
- Utiliza un recopilador de datos para el procesamiento por lotes adecuado de secuencias de longitud variable
Métricas y Evaluación
- Implementa cálculo personalizado de métricas usando seqeval
- Realiza seguimiento tanto de la precisión como de la puntuación F1
- Maneja adecuadamente los tokens especiales en la evaluación
Predicción y Salida
- Incluye una demostración del uso del modelo con texto de ejemplo
- Implementa formato de salida legible para las predicciones
- Maneja la agregación de entidades que abarcan múltiples tokens
Manejo de Errores y Registro
- Implementa registro apropiado a lo largo del pipeline
- Incluye manejo de errores para operaciones críticas
- Proporciona actualizaciones informativas del progreso durante el entrenamiento

Salida Esperada:

Aquí está cómo se vería la salida esperada al ejecutar el modelo NER en el texto de prueba "Apple CEO Tim Cook announced new products in California":

Test Prediction:
Text: Apple CEO Tim Cook announced new products in California.

Predicted Entities:
ORG: Apple
PER: Tim Cook
LOC: California

La salida muestra las entidades nombradas identificadas con sus tipos correspondientes:

"Apple" se identifica como una organización (ORG)
"Tim Cook" se identifica como una persona (PER)
"California" se identifica como una ubicación (LOC)

Este formato coincide con la estructura de salida del código que procesa los tokens e imprime las entidades junto con sus tipos.

6.2.3 Uso del Modelo Ajustado

Después del ajuste fino, el modelo está listo para ser implementado en tareas de reconocimiento de entidades en textos nuevos y no vistos. El modelo ajustado habrá aprendido patrones específicos del dominio y puede identificar entidades con mayor precisión en comparación con un modelo pre-entrenado básico.

Al usar el modelo, puede alimentarlo con nuevas muestras de texto a través del tokenizador, y devolverá predicciones para cada token, indicando si es parte de una entidad nombrada y qué tipo de entidad representa.

Las predicciones del modelo pueden ser post-procesadas para combinar tokens en menciones completas de entidades y filtrar predicciones de baja confianza para asegurar resultados confiables.

Ejemplo de Código: Predicción con Modelo Ajustado

# Import required libraries
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

def predict_entities(text, model_path="./final_model"):
    """
    Predict named entities in the given text using a fine-tuned model
    
    Args:
        text (str): Input text for entity recognition
        model_path (str): Path to the fine-tuned model
        
    Returns:
        list: List of tuples containing (entity_text, entity_type)
    """
    # Load model and tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForTokenClassification.from_pretrained(model_path)
    
    # Put model in evaluation mode
    model.eval()
    
    # Tokenize and prepare input
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    
    # Get predictions
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
    
    # Convert predictions to entity labels
    label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Extract entities
    entities = []
    current_entity = None
    current_text = []
    
    for token, pred_idx in zip(tokens, predictions[0]):
        if pred_idx != -100:  # Ignore special tokens
            label = label_names[pred_idx]
            
            if label != "O":
                if label.startswith("B-"):
                    # Save previous entity if exists
                    if current_entity:
                        entities.append((" ".join(current_text), current_entity))
                    # Start new entity
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    entities.append((" ".join(current_text), current_entity))
                    current_entity = None
                    current_text = []
    
    return entities

# Example usage
if __name__ == "__main__":
    # Test text
    text = "Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017."
    
    # Get predictions
    entities = predict_entities(text)
    
    # Print results in a formatted way
    print("\nInput Text:", text)
    print("\nDetected Entities:")
    for entity_text, entity_type in entities:
        print(f"{entity_type}: {entity_text}")

Desglose del Código:

Estructura de la Función
- Implementa una función predict_entities() autocontenida para fácil reutilización
- Incluye documentación apropiada con docstring
- Maneja la carga del modelo y predicción de manera limpia y organizada
Manejo del Modelo
- Carga el modelo ajustado y el tokenizador desde una ruta especificada
- Establece el modelo en modo de evaluación para desactivar dropout y otras características de entrenamiento
- Utiliza torch.no_grad() para una inferencia más eficiente
Extracción de Entidades
- Implementa lógica sofisticada de extracción de entidades
- Maneja adecuadamente las etiquetas B-(Inicio) e I-(Interior) para entidades de múltiples tokens
- Filtra tokens especiales y combina subpalabras en entidades completas
Formateo de Salida
- Devuelve una lista estructurada de tuplas de entidades
- Proporciona una salida formateada clara para fácil interpretación
- Incluye ejemplo de uso con caso de prueba realista

Salida Esperada:

Input Text: Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017.

Detected Entities:
ORG: Amazon
PER: Jeff Bezos
LOC: Seattle
ORG: Whole Foods

6.2.4 Aplicaciones del NER

1. Extracción de Información

Extraer y clasificar entidades de documentos estructurados y no estructurados en diversos formatos y contextos. Esta potente capacidad permite:

Gestión de Eventos: Identificar y extraer automáticamente fechas, horas y ubicaciones de correos electrónicos, calendarios y documentos para agilizar la programación y coordinación de eventos.
Procesamiento de Información de Contacto: Extraer eficientemente nombres, títulos, números de teléfono y direcciones de correo electrónico de tarjetas de presentación, correos electrónicos y documentos para la gestión automatizada de bases de datos de contactos.
Análisis Geográfico: Detectar y categorizar información basada en ubicaciones, incluyendo direcciones, ciudades, regiones y países para permitir el análisis espacial y la cartografía.

En dominios específicos, el NER proporciona valor especializado:

Análisis de Documentos Legales: Identificar sistemáticamente las partes involucradas en casos, fechas importantes, jurisdicciones, citas de casos y terminología legal. Esto ayuda en la revisión de documentos, preparación de casos e investigación legal.
Procesamiento de Artículos de Noticias: Rastrear y analizar exhaustivamente personas (incluyendo sus roles y títulos), organizaciones (tanto mencionadas como involucradas), ubicaciones de eventos e información temporal para permitir el monitoreo de noticias y análisis de tendencias.
Investigación Académica: Extraer y categorizar citas, nombres de autores, metodologías de investigación, conjuntos de datos utilizados, hallazgos clave y terminología técnica. Esto facilita la revisión de literatura, meta-análisis y seguimiento del impacto de la investigación.

Ejemplo de Código: Sistema de Extracción de Información

import spacy
from transformers import pipeline
from typing import List, Dict, Tuple

class InformationExtractor:
    def __init__(self):
        # Load SpaCy model for basic NLP tasks
        self.nlp = spacy.load("en_core_web_sm")
        # Initialize transformer pipeline for NER
        self.ner_pipeline = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english")
        
    def extract_information(self, text: str) -> Dict:
        """
        Extract various types of information from text including entities,
        dates, and key phrases.
        """
        # Process text with SpaCy
        doc = self.nlp(text)
        
        # Extract information using transformers
        ner_results = self.ner_pipeline(text)
        
        # Combine and structure results
        extracted_info = {
            'entities': self._process_entities(ner_results),
            'dates': self._extract_dates(doc),
            'contact_info': self._extract_contact_info(doc),
            'key_phrases': self._extract_key_phrases(doc)
        }
        
        return extracted_info
    
    def _process_entities(self, ner_results: List) -> Dict[str, List[str]]:
        """Process and categorize named entities"""
        entities = {
            'PERSON': [], 'ORG': [], 'LOC': [], 'MISC': []
        }
        
        current_entity = {'text': [], 'type': None}
        
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    entity_type = current_entity['type']
                    entity_text = ' '.join(current_entity['text'])
                    entities[entity_type].append(entity_text)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
                
        return entities
    
    def _extract_dates(self, doc) -> List[str]:
        """Extract date mentions from text"""
        return [ent.text for ent in doc.ents if ent.label_ == 'DATE']
    
    def _extract_contact_info(self, doc) -> Dict[str, List[str]]:
        """Extract contact information (emails, phones, etc.)"""
        contact_info = {
            'emails': [],
            'phones': [],
            'addresses': []
        }
        
        email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
        phone_pattern = r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b'
        
        # Extract using patterns and NER
        for ent in doc.ents:
            if ent.label_ == 'GPE':
                contact_info['addresses'].append(ent.text)
                
        # Add regex matching for emails and phones
        contact_info['emails'] = [token.text for token in doc 
                                if token.like_email]
        
        return contact_info
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases based on dependency parsing"""
        key_phrases = []
        
        for chunk in doc.noun_chunks:
            if chunk.root.dep_ in ['nsubj', 'dobj']:
                key_phrases.append(chunk.text)
                
        return key_phrases

# Example usage
if __name__ == "__main__":
    extractor = InformationExtractor()
    
    sample_text = """
    John Smith, CEO of Tech Solutions Inc., will be speaking at our conference 
    on March 15, 2025. Contact him at john.smith@techsolutions.com or 
    call 555-123-4567. The event will be held at 123 Innovation Drive, 
    Silicon Valley, CA.
    """
    
    results = extractor.extract_information(sample_text)
    
    # Print results in a formatted way
    print("\nExtracted Information:")
    print("\nEntities:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}: {', '.join(entities)}")
    
    print("\nDates:", ', '.join(results['dates']))
    print("\nContact Information:")
    for info_type, info in results['contact_info'].items():
        print(f"{info_type}: {', '.join(info)}")
    
    print("\nKey Phrases:", ', '.join(results['key_phrases']))

Desglose y Explicación del Código:

Estructura de la Clase
- Implementa una clase InformationExtractor integral que combina múltiples herramientas de PLN
- Utiliza tanto SpaCy como Transformers para un reconocimiento de entidades robusto
- Organiza la lógica de extracción en métodos separados para facilitar el mantenimiento
Componentes de Extracción de Información
- Reconocimiento de entidades nombradas utilizando modelos transformer de última generación
- Extracción de fechas utilizando el reconocimiento de entidades de SpaCy
- Extracción de información de contacto utilizando tanto coincidencia de patrones como REN
- Extracción de frases clave utilizando análisis de dependencias
Lógica de Procesamiento
- Maneja la continuidad de entidades con etiquetas B-(Inicio) e I-(Interior)
- Implementa análisis de texto sofisticado para varios tipos de información
- Combina múltiples técnicas de extracción para resultados robustos
Organización de Salida
- Devuelve un diccionario estructurado con información categorizada
- Separa diferentes tipos de información extraída
- Proporciona una salida limpia y formateada para fácil interpretación

Salida Esperada:

Extracted Information:

Entities:
PERSON: John Smith
ORG: Tech Solutions Inc.
LOC: Silicon Valley, CA

Dates: March 15, 2025

Contact Information:
emails: john.smith@techsolutions.com
phones: 555-123-4567
addresses: Silicon Valley, CA

Key Phrases: John Smith, CEO of Tech Solutions Inc., our conference

2. Salud

Procesar registros médicos y documentación clínica para identificar entidades cruciales del ámbito sanitario, permitiendo una gestión avanzada de la información médica y mejorando la atención al paciente. Este proceso integral involucra múltiples componentes clave:

Primero, el sistema reconoce nombres de medicamentos e información farmacéutica, incluyendo dosificaciones, frecuencias y contraindicaciones, facilitando una gestión precisa de medicamentos y reduciendo errores de prescripción.

Segundo, identifica síntomas y presentaciones clínicas mediante el análisis de descripciones de pacientes, notas médicas y observaciones clínicas. Esta capacidad apoya un diagnóstico más preciso al conectar los síntomas reportados con posibles condiciones y ayudando a los profesionales de la salud a identificar patrones que de otro modo podrían pasar desapercibidos.

Tercero, el sistema detecta y rastrea condiciones médicas a lo largo del historial del paciente, creando registros de salud longitudinales detallados que muestran la progresión de las condiciones a través del tiempo. Este análisis histórico ayuda a predecir posibles riesgos de salud y permite estrategias de atención preventiva.

Las capacidades de la tecnología se extienden además a identificar y categorizar procedimientos médicos (desde chequeos rutinarios hasta cirugías complejas), pruebas de laboratorio (incluyendo resultados y rangos normales), y proveedores de salud (sus especialidades y roles en la atención del paciente). Este reconocimiento integral de entidades permite a las organizaciones sanitarias:

Organizar y recuperar mejor la información del paciente
Mejorar la coordinación de la atención entre proveedores
Apoyar la toma de decisiones clínicas basada en evidencia
Mejorar el seguimiento de métricas de calidad
Agilizar los procesos de seguros y facturación

Ejemplo de Código: Sistema de Reconocimiento de Entidades Médicas

from transformers import pipeline
from typing import Dict, List, Tuple
import re
import spacy

class MedicalEntityExtractor:
    def __init__(self):
        # Load specialized medical NER model
        self.med_ner = pipeline("ner", model="alvaroalon2/biobert_diseases_ner")
        # Load SpaCy model for additional medical entities
        self.nlp = spacy.load("en_core_sci_md")
        
    def process_medical_text(self, text: str) -> Dict[str, List[str]]:
        """
        Extract medical entities from clinical text.
        
        Args:
            text (str): Clinical text to analyze
            
        Returns:
            Dict containing categorized medical entities
        """
        # Initialize categories
        medical_entities = {
            'conditions': [],
            'medications': [],
            'procedures': [],
            'lab_tests': [],
            'vitals': [],
            'anatomical_sites': []
        }
        
        # Process with transformer pipeline
        ner_results = self.med_ner(text)
        
        # Process with SpaCy
        doc = self.nlp(text)
        
        # Extract entities from transformer results
        current_entity = {'text': [], 'type': None}
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    self._add_entity(medical_entities, current_entity)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
        
        # Add final entity if exists
        if current_entity['text']:
            self._add_entity(medical_entities, current_entity)
        
        # Extract measurements and vitals
        self._extract_measurements(text, medical_entities)
        
        # Extract medications using regex patterns
        self._extract_medications(text, medical_entities)
        
        return medical_entities
    
    def _add_entity(self, medical_entities: Dict, entity: Dict):
        """Add extracted entity to appropriate category"""
        entity_text = ' '.join(entity['text'])
        entity_type = entity['type']
        
        if entity_type == 'DISEASE':
            medical_entities['conditions'].append(entity_text)
        elif entity_type == 'PROCEDURE':
            medical_entities['procedures'].append(entity_text)
        elif entity_type == 'TEST':
            medical_entities['lab_tests'].append(entity_text)
            
    def _extract_measurements(self, text: str, medical_entities: Dict):
        """Extract vital signs and measurements"""
        # Patterns for common vital signs
        vital_patterns = {
            'blood_pressure': r'\d{2,3}/\d{2,3}',
            'temperature': r'\d{2}\.?\d*°[CF]',
            'pulse': r'HR:?\s*\d{2,3}',
            'oxygen': r'O2\s*sat:?\s*\d{2,3}%'
        }
        
        for vital_type, pattern in vital_patterns.items():
            matches = re.finditer(pattern, text)
            medical_entities['vitals'].extend(
                [match.group() for match in matches]
            )
            
    def _extract_medications(self, text: str, medical_entities: Dict):
        """Extract medication information"""
        # Pattern for medication with optional dosage
        med_pattern = r'\b\w+\s*\d*\s*mg/\w+|\b\w+\s*\d*\s*mg\b'
        matches = re.finditer(med_pattern, text)
        medical_entities['medications'].extend(
            [match.group() for match in matches]
        )

# Example usage
if __name__ == "__main__":
    extractor = MedicalEntityExtractor()
    
    sample_text = """
    Patient presents with acute bronchitis and hypertension. 
    BP: 140/90, Temperature: 38.5°C, HR: 88, O2 sat: 97%
    Currently taking Lisinopril 10mg daily and Ventolin 2.5mg/mL PRN.
    Lab tests ordered: CBC, CMP, and chest X-ray.
    """
    
    results = extractor.process_medical_text(sample_text)
    
    print("\nExtracted Medical Entities:")
    for category, entities in results.items():
        if entities:
            print(f"\n{category.title()}:")
            for entity in entities:
                print(f"- {entity}")

Desglose del Código:

Arquitectura de Clase
- Implementa una clase MedicalEntityExtractor especializada que combina múltiples enfoques de PLN
- Utiliza el modelo BioBERT ajustado para el reconocimiento de entidades médicas
- Incorpora el modelo científico de SpaCy para la detección adicional de entidades
Procesamiento de Entidades
- Maneja varios tipos de entidades médicas incluyendo condiciones, medicamentos y procedimientos
- Implementa coincidencia de patrones sofisticada para signos vitales y mediciones
- Utiliza patrones regex para la extracción de medicamentos con información de dosificación
Características Avanzadas
- Combina enfoques basados en transformers y reglas para una cobertura integral
- Maneja terminología médica compleja y abreviaturas
- Procesa texto clínico estructurado y no estructurado

Salida Esperada:

Extracted Medical Entities:

Conditions:
- acute bronchitis
- hypertension

Vitals:
- 140/90
- 38.5°C
- HR: 88
- O2 sat: 97%

Medications:
- Lisinopril 10mg
- Ventolin 2.5mg/mL

Lab Tests:
- CBC
- CMP
- chest X-ray

3. Análisis de Comentarios de Clientes

Analizar reseñas y comentarios de clientes a gran escala mediante la identificación de productos específicos, características e indicadores de sentimiento a través del procesamiento avanzado del lenguaje natural. Este análisis integral cumple múltiples propósitos:

Primero, permite a las empresas entender qué características del producto son más frecuentemente discutidas por los clientes, ayudando a priorizar el desarrollo y las mejoras del producto. El sistema puede detectar tanto menciones explícitas ("la duración de la batería es excelente") como referencias implícitas ("no dura lo suficiente") a los atributos del producto.

Segundo, la tecnología rastrea menciones de marca y sentimiento a través de varios canales, desde redes sociales hasta plataformas de reseñas. Esto proporciona una visión holística de la percepción de la marca y permite a las empresas responder rápidamente a tendencias o preocupaciones emergentes.

Tercero, ayuda a identificar problemas o patrones recurrentes en los comentarios de los clientes mediante la agrupación de quejas o elogios similares. Este enfoque sistemático ayuda a las empresas a abordar problemas sistémicos y capitalizar las características exitosas.

Además, las capacidades avanzadas de reconocimiento de entidades del sistema se extienden a la inteligencia competitiva mediante:

El reconocimiento de nombres de competidores y productos en comparaciones de clientes
El seguimiento de información de precios y ofertas promocionales en los mercados
El análisis de indicadores de calidad de servicio a través de narrativas de experiencia del cliente
La identificación de tendencias emergentes del mercado y preferencias de los clientes
El monitoreo del panorama competitivo para nuevos lanzamientos o características de productos

Este análisis integral proporciona información valiosa para la estrategia de producto, la mejora del servicio al cliente y el posicionamiento en el mercado, permitiendo en última instancia la toma de decisiones basada en datos para una mejor satisfacción del cliente y crecimiento empresarial.

Ejemplo de Código: Sistema de Análisis de Comentarios de Clientes

from transformers import pipeline
from typing import Dict, List, Tuple
import pandas as pd
import spacy
from collections import defaultdict

class CustomerFeedbackAnalyzer:
    def __init__(self):
        # Initialize sentiment analysis pipeline
        self.sentiment_analyzer = pipeline("sentiment-analysis")
        # Initialize NER pipeline for product/feature detection
        self.ner = spacy.load("en_core_web_sm")
        # Initialize aspect-based sentiment classifier
        self.aspect_classifier = pipeline("text-classification", 
                                       model="nlptown/bert-base-multilingual-uncased-sentiment")
    
    def analyze_feedback(self, feedback: str) -> Dict:
        """
        Analyze customer feedback for sentiment, entities, and aspects.
        
        Args:
            feedback (str): Customer feedback text
            
        Returns:
            Dict containing analysis results
        """
        results = {
            'overall_sentiment': None,
            'entities': defaultdict(list),
            'aspects': [],
            'key_phrases': []
        }
        
        # Overall sentiment analysis
        sentiment = self.sentiment_analyzer(feedback)[0]
        results['overall_sentiment'] = {
            'label': sentiment['label'],
            'score': sentiment['score']
        }
        
        # Entity recognition
        doc = self.ner(feedback)
        for ent in doc.ents:
            results['entities'][ent.label_].append({
                'text': ent.text,
                'start': ent.start_char,
                'end': ent.end_char
            })
        
        # Aspect-based sentiment analysis
        aspects = self._extract_aspects(doc)
        for aspect in aspects:
            aspect_text = aspect['text']
            aspect_context = self._get_aspect_context(feedback, aspect)
            aspect_sentiment = self.aspect_classifier(aspect_context)[0]
            
            results['aspects'].append({
                'aspect': aspect_text,
                'sentiment': aspect_sentiment['label'],
                'confidence': aspect_sentiment['score'],
                'context': aspect_context
            })
        
        # Extract key phrases
        results['key_phrases'] = self._extract_key_phrases(doc)
        
        return results
    
    def _extract_aspects(self, doc) -> List[Dict]:
        """Extract product aspects/features from text"""
        aspects = []
        
        # Pattern matching for noun phrases
        for chunk in doc.noun_chunks:
            if self._is_valid_aspect(chunk):
                aspects.append({
                    'text': chunk.text,
                    'start': chunk.start_char,
                    'end': chunk.end_char
                })
        
        return aspects
    
    def _is_valid_aspect(self, chunk) -> bool:
        """Validate if noun chunk is a valid product aspect"""
        invalid_words = {'i', 'you', 'he', 'she', 'it', 'we', 'they'}
        return (
            chunk.root.pos_ == 'NOUN' and
            chunk.root.text.lower() not in invalid_words
        )
    
    def _get_aspect_context(self, text: str, aspect: Dict, window: int = 50) -> str:
        """Extract context around an aspect for sentiment analysis"""
        start = max(0, aspect['start'] - window)
        end = min(len(text), aspect['end'] + window)
        return text[start:end]
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases from feedback"""
        key_phrases = []
        
        for sent in doc.sents:
            # Extract subject-verb-object patterns
            for token in sent:
                if token.dep_ == 'nsubj' and token.head.pos_ == 'VERB':
                    phrase = self._build_phrase(token)
                    if phrase:
                        key_phrases.append(phrase)
        
        return key_phrases
    
    def _build_phrase(self, token) -> str:
        """Build meaningful phrase from dependency parse"""
        words = []
        
        # Get subject
        words.extend(token.subtree)
        
        # Sort words by their position in text
        words = sorted(words, key=lambda x: x.i)
        
        return ' '.join([word.text for word in words])

# Example usage
if __name__ == "__main__":
    analyzer = CustomerFeedbackAnalyzer()
    
    feedback = """
    The new iPhone 13's battery life is impressive, but the camera quality could be better.
    Face ID works flawlessly in low light conditions. However, the price point is quite high
    compared to similar Android phones.
    """
    
    results = analyzer.analyze_feedback(feedback)
    
    print("Analysis Results:")
    print("\nOverall Sentiment:", results['overall_sentiment']['label'])
    print("\nEntities Found:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}:", [e['text'] for e in entities])
    
    print("\nAspect-Based Sentiment:")
    for aspect in results['aspects']:
        print(f"- {aspect['aspect']}: {aspect['sentiment']}")
    
    print("\nKey Phrases:")
    for phrase in results['key_phrases']:
        print(f"- {phrase}")

Desglose y Explicación del Código:

Arquitectura de Clase
- Implementa CustomerFeedbackAnalyzer combinando múltiples técnicas de PLN
- Utiliza modelos basados en transformers para análisis y clasificación de sentimientos
- Incorpora SpaCy para el reconocimiento de entidades y análisis de dependencias
Componentes de Análisis
- Análisis general de sentimientos utilizando modelos transformer pre-entrenados
- Reconocimiento de entidades para identificación de productos y características
- Análisis de sentimientos basado en aspectos para características específicas de productos
- Extracción de frases clave mediante análisis de dependencias
Características Avanzadas
- Análisis de ventana contextual para sentimientos precisos de aspectos
- Construcción sofisticada de frases a partir de árboles de dependencias
- Categorización flexible de entidades y puntuación de sentimientos

Salida Esperada:

Analysis Results:

Overall Sentiment: POSITIVE

Entities Found:
PRODUCT: ['iPhone 13', 'Android']
ORG: ['Face ID']

Aspect-Based Sentiment:
- battery life: POSITIVE
- camera quality: NEGATIVE
- Face ID: POSITIVE
- price point: NEGATIVE

Key Phrases:
- battery life is impressive
- camera quality could be better
- Face ID works flawlessly
- price point is quite high

4. Motores de Búsqueda

Mejoran la funcionalidad de búsqueda mediante el reconocimiento y categorización de entidades dentro de las consultas, una capacidad crítica que transforma la manera en que los motores de búsqueda comprenden y procesan las intenciones del usuario. Este sofisticado sistema de reconocimiento de entidades permite resultados de búsqueda más precisos a través de varios mecanismos clave:

Primero, comprende el contexto y las relaciones entre entidades analizando el texto circundante y los patrones de búsqueda. Por ejemplo, cuando un usuario busca "ubicaciones de tiendas Apple", el sistema reconoce "Apple" como una empresa en lugar de una fruta basándose en las pistas contextuales.

Segundo, emplea técnicas de desambiguación para diferenciar entre entidades con nombres idénticos. Por ejemplo, distinguiendo entre "Paris" la ciudad versus el personaje mitológico versus la celebridad, o "Apple" la empresa tecnológica versus la fruta. Esta desambiguación se logra mediante el análisis del contexto de la consulta, el historial del usuario y los patrones de uso común.

Tercero, el sistema aprovecha las relaciones entre entidades para mejorar la precisión de búsqueda. Cuando un usuario busca "anuncios de Tim Cook", comprende la conexión entre Tim Cook y Apple, potencialmente incluyendo noticias relevantes relacionadas con Apple en los resultados.

Esta tecnología también permite características sofisticadas como:

Expansión de consultas: Inclusión automática de términos relacionados y sinónimos
Búsqueda semántica: Comprensión del significado detrás de las consultas en lugar de solo emparejar palabras clave
Resultados personalizados: Adaptación de los resultados de búsqueda basados en las preferencias del usuario e interacciones previas con entidades
Búsquedas relacionadas: Sugerencia de consultas relevantes basadas en relaciones entre entidades y patrones comunes de búsqueda

Ejemplo de Código: Motor de Búsqueda Consciente de Entidades

from transformers import AutoTokenizer, AutoModel
from typing import List, Dict, Tuple
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import spacy

class EntityAwareSearchEngine:
    def __init__(self):
        # Initialize BERT model for semantic understanding
        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
        self.model = AutoModel.from_pretrained('bert-base-uncased')
        # Load SpaCy for entity recognition
        self.nlp = spacy.load('en_core_web_sm')
        # Initialize document store
        self.document_embeddings = {}
        self.document_entities = {}
    
    def index_document(self, doc_id: str, content: str):
        """
        Index a document with its embeddings and entities
        """
        # Generate document embedding
        inputs = self.tokenizer(content, return_tensors='pt', 
                              truncation=True, max_length=512)
        with torch.no_grad():
            outputs = self.model(**inputs)
            embedding = outputs.last_hidden_state.mean(dim=1)
        
        # Store document embedding
        self.document_embeddings[doc_id] = embedding
        
        # Extract and store entities
        doc = self.nlp(content)
        self.document_entities[doc_id] = {
            'entities': [(ent.text, ent.label_) for ent in doc.ents],
            'content': content
        }
    
    def search(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        Perform entity-aware search
        """
        # Extract entities from query
        query_doc = self.nlp(query)
        query_entities = [(ent.text, ent.label_) for ent in query_doc.ents]
        
        # Generate query embedding
        query_inputs = self.tokenizer(query, return_tensors='pt',
                                    truncation=True, max_length=512)
        with torch.no_grad():
            query_outputs = self.model(**query_inputs)
            query_embedding = query_outputs.last_hidden_state.mean(dim=1)
        
        results = []
        for doc_id, doc_embedding in self.document_embeddings.items():
            # Calculate semantic similarity
            similarity = cosine_similarity(
                query_embedding.numpy(),
                doc_embedding.numpy()
            )[0][0]
            
            # Calculate entity match score
            entity_score = self._calculate_entity_score(
                query_entities,
                self.document_entities[doc_id]['entities']
            )
            
            # Combine scores
            final_score = 0.7 * similarity + 0.3 * entity_score
            
            results.append({
                'doc_id': doc_id,
                'score': final_score,
                'content': self.document_entities[doc_id]['content'][:200] + '...',
                'matched_entities': self._get_matching_entities(
                    query_entities,
                    self.document_entities[doc_id]['entities']
                )
            })
        
        # Sort by score and return top_k results
        results.sort(key=lambda x: x['score'], reverse=True)
        return results[:top_k]
    
    def _calculate_entity_score(self, query_entities: List[Tuple],
                              doc_entities: List[Tuple]) -> float:
        """
        Calculate entity matching score between query and document
        """
        if not query_entities:
            return 0.0
        
        matches = 0
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches += 1
                    break
        
        return matches / len(query_entities)
    
    def _get_matching_entities(self, query_entities: List[Tuple],
                             doc_entities: List[Tuple]) -> List[Dict]:
        """
        Get list of matching entities between query and document
        """
        matches = []
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches.append({
                        'text': d_ent[0],
                        'type': d_ent[1]
                    })
        return matches

# Example usage
if __name__ == "__main__":
    search_engine = EntityAwareSearchEngine()
    
    # Index sample documents
    documents = {
        "doc1": "Apple CEO Tim Cook announced new iPhone models at the event in Cupertino.",
        "doc2": "The apple pie recipe requires fresh apples from Washington state.",
        "doc3": "Microsoft and Apple are leading tech companies in the US market."
    }
    
    for doc_id, content in documents.items():
        search_engine.index_document(doc_id, content)
    
    # Perform search
    results = search_engine.search("What did Tim Cook announce?")
    
    print("Search Results:")
    for result in results:
        print(f"\nDocument {result['doc_id']} (Score: {result['score']:.2f})")
        print(f"Content: {result['content']}")
        print("Matched Entities:", result['matched_entities'])

Desglose y Explicación del Código:

Componentes Principales
- Combina búsqueda semántica basada en BERT con reconocimiento de entidades
- Utiliza SpaCy para la extracción y clasificación eficiente de entidades
- Implementa un sistema híbrido de puntuación que combina coincidencias semánticas y de entidades
Características Principales
- Indexación de documentos con información de embeddings y entidades
- Búsqueda consciente de entidades que considera tanto la similitud semántica como las coincidencias de entidades
- Sistema flexible de puntuación con pesos configurables para diferentes factores
Capacidades Avanzadas
- Maneja la desambiguación de entidades a través del contexto
- Proporciona resultados de búsqueda detallados con entidades coincidentes
- Admite la clasificación de documentos basada en múltiples factores de relevancia

Salida Esperada:

Search Results:

Document doc1 (Score: 0.85)
Content: Apple CEO Tim Cook announced new iPhone models at the event in Cupertino...
Matched Entities: [
    {'text': 'Tim Cook', 'type': 'PERSON'},
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc3 (Score: 0.45)
Content: Microsoft and Apple are leading tech companies in the US market...
Matched Entities: [
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc2 (Score: 0.15)
Content: The apple pie recipe requires fresh apples from Washington state...
Matched Entities: []

6.2.5 Desafíos en el NER

Ambigüedad

Las palabras pueden tener múltiples interpretaciones según el contexto, lo que crea un desafío significativo para los sistemas de Reconocimiento de Entidades Nombradas. Este fenómeno lingüístico, conocido como ambigüedad semántica, se manifiesta de varias formas:

Ambigüedad del Tipo de Entidad: Ejemplos comunes incluyen:

"Apple": Podría representar la empresa tecnológica (ORGANIZACIÓN), la fruta (ALIMENTO), o Apple Records (ORGANIZACIÓN)
"Washington": Puede referirse al estado de EE. UU. (UBICACIÓN), la ciudad capital (UBICACIÓN), o George Washington (PERSONA)
"Mercury": Podría indicar el planeta (CUERPO_CELESTE), el elemento químico (SUSTANCIA), o la marca de automóviles (ORGANIZACIÓN)

Esta ambigüedad se vuelve particularmente desafiante para los sistemas NER porque la clasificación precisa requiere:

Análisis Contextual: Examinar las palabras y frases circundantes para determinar el tipo de entidad apropiado
Conocimiento del Dominio: Comprender el tema o campo más amplio del texto
Comprensión Semántica: Captar el significado general y la intención del pasaje
Reconocimiento de Relaciones: Identificar cómo la entidad se relaciona con otras entidades mencionadas

Los sistemas NER deben emplear algoritmos sofisticados y pistas contextuales para resolver estas ambigüedades, utilizando frecuentemente:

Contexto a nivel de documento
Datos de entrenamiento específicos del sector
Resolución de correferencias
Vinculación de entidades con bases de conocimiento

Variaciones Específicas del Dominio

Diferentes campos e industrias emplean terminología y tipos de entidades altamente especializados que presentan desafíos únicos para los sistemas NER. Esta especificidad del dominio crea varias consideraciones importantes:

Tipos de Entidades Específicas del Dominio:

Dominio Legal: Los documentos contienen entidades especializadas como citas de casos (por ejemplo, "Brown v. Board of Education"), estatutos (por ejemplo, "Sección 230 de la Ley de Decencia en las Comunicaciones"), principios legales (por ejemplo, "doctrina del uso justo"), y referencias jurisdiccionales.
Dominio Biomédico: Los textos frecuentemente hacen referencia a secuencias genéticas (por ejemplo, "BRCA1"), clasificaciones de enfermedades (por ejemplo, "Diabetes Tipo 2"), nombres de medicamentos (por ejemplo, "metilprednisolona"), y términos anatómicos.
Dominio Financiero: Las entidades incluyen símbolos bursátiles, índices de mercado, instrumentos financieros y referencias regulatorias.

Requisitos de Entrenamiento:

Cada dominio necesita conjuntos de datos de entrenamiento cuidadosamente curados que capturen el vocabulario único y las relaciones entre entidades dentro de ese campo.
Pueden requerirse arquitecturas de modelo personalizadas para manejar patrones y relaciones específicos del dominio de manera efectiva.
A menudo se necesitan expertos del dominio para crear pautas precisas de anotación y validar datos de entrenamiento.

Desafíos Entre Dominios:

Los términos pueden tener significados radicalmente diferentes entre dominios:
- "Java" → Lenguaje de programación (Tecnología)
- "Java" → Ubicación geográfica (Viajes/Geografía)
- "Java" → Variedad de café (Alimentos/Bebidas)
El contexto se vuelve crucial para la clasificación precisa de entidades
El aprendizaje por transferencia entre dominios puede ser limitado debido a estas diferencias fundamentales en terminología y patrones de uso.

Idiomas con Recursos Limitados

Los idiomas con datos de entrenamiento limitados, conocidos como idiomas de bajos recursos, enfrentan desafíos significativos en la implementación de NER. Estos desafíos se manifiestan en varias áreas clave:

Escasez de Datos:

Conjuntos de datos anotados limitados para entrenamiento
- Ejemplos insuficientes del mundo real para la validación del modelo
- Falta de referencias estandarizadas para la evaluación del rendimiento

Complejidad Lingüística:

Estructuras gramaticales únicas que difieren de los idiomas con muchos recursos
- Sistemas morfológicos complejos que requieren procesamiento especializado
- Sistemas de escritura que pueden no seguir reglas convencionales de tokenización

Limitaciones Técnicas:

Pocos o ningún modelo pre-entrenado disponible
- Recursos computacionales limitados dedicados a estos idiomas
- Falta de categorías de entidades estandarizadas que reflejen el contexto cultural

Este desafío se extiende más allá de los idiomas raros para incluir:

Dialectos regionales con vocabulario y gramática únicos
Vocabularios técnicos en campos especializados
Idiomas emergentes y comunicaciones digitales

Los enfoques tradicionales de NER, que fueron desarrollados principalmente para idiomas con muchos recursos como el inglés, a menudo tienen dificultades con estos idiomas debido a:

Suposiciones sobre el orden de las palabras y la sintaxis que pueden no aplicar
Dependencia de datos de entrenamiento a gran escala que no están disponibles
Comprensión limitada de matices culturales y contextuales

6.2.6 Puntos Clave

El Reconocimiento de Entidades Nombradas (NER) es una tarea crucial de PLN que identifica y clasifica automáticamente entidades nombradas dentro del texto. Sirve como un componente fundamental para muchas aplicaciones avanzadas de procesamiento del lenguaje natural al identificar elementos específicos como:
- Personas y nombres personales
- Organizaciones e instituciones
- Ubicaciones geográficas y lugares
- Fechas, horas y expresiones temporales
- Cantidades, medidas y valores monetarios
Las arquitecturas Transformer, con BERT a la cabeza, han avanzado significativamente las capacidades del NER a través de varias innovaciones clave:
- Mecanismos avanzados de atención que capturan dependencias de largo alcance en el texto
- Comprensión contextual que ayuda a desambiguar entidades basándose en las palabras circundantes
- Pre-entrenamiento en conjuntos de datos masivos que construye una comprensión robusta del lenguaje
- Capacidades de ajuste fino que permiten la adaptación a dominios específicos
- Tokenización de subpalabras que maneja efectivamente palabras fuera del vocabulario
Las aplicaciones prácticas del NER abarcan una amplia gama de industrias y casos de uso:
- Salud: Extracción de entidades médicas de notas clínicas y artículos de investigación
- Legal: Identificación de partes, citas y jurisdicciones en documentos legales
- Finanzas: Reconocimiento de nombres de empresas, instrumentos financieros y transacciones
- Investigación: Automatización de revisión de literatura y extracción de conocimiento
- Medios: Seguimiento de menciones de personas, organizaciones y eventos
Si bien la tecnología NER ha logrado avances significativos, continúa enfrentando desafíos importantes:
- Ambigüedad contextual donde la misma palabra puede representar diferentes tipos de entidades
- Terminología específica del dominio que requiere datos de entrenamiento especializados
- Manejo de entidades emergentes y casos raros
- Dificultades de adaptación entre dominios y entre idiomas
- Requisitos de procesamiento en tiempo real para aplicaciones a gran escala

6.2 Reconocimiento de Entidades Nombradas (REN)

Nombres de personas (como políticos, autores o figuras históricas)
Organizaciones (empresas, instituciones, agencias gubernamentales)
Ubicaciones (países, ciudades, puntos de referencia)
Expresiones temporales (fechas, horas, duraciones)
Cantidades (valores monetarios, porcentajes, mediciones)
Nombres de productos (marcas, modelos, servicios)

Para ilustrar cómo funciona el REN en la práctica, considere esta oración de ejemplo:

"Apple Inc. lanzó el iPhone en California el 9 de enero de 2007,"

Al procesar esta oración, un sistema REN identifica:

"Apple Inc." como una Organización - distinguiéndola de la fruta gracias a la comprensión contextual
"California" como una Ubicación - reconociéndola como una entidad geográfica
"9 de enero de 2007" como una Fecha - analizando y estandarizando la expresión temporal

El REN sirve como un componente crucial en varias aplicaciones del mundo real:

Extracción de Información: Obtención automática de datos estructurados a partir de documentos de texto no estructurados
Sistemas de Respuesta a Preguntas: Comprensión de entidades mencionadas en preguntas para proporcionar respuestas precisas
Procesamiento de Documentos: Organización y categorización de documentos basados en las entidades mencionadas
Recomendación de Contenido: Identificación de contenido relevante basado en relaciones entre entidades
Monitoreo de Cumplimiento: Detección y seguimiento de menciones de entidades reguladas o información sensible

6.2.1 Cómo los Transformers Mejoran el REN

Los sistemas basados en reglas requerían un extenso esfuerzo manual para crear y mantener las reglas
Los modelos estadísticos necesitaban una cuidadosa ingeniería de características para cada nuevo dominio
Ambos enfoques tenían dificultades con la ambigüedad contextual
El rendimiento se degradaba significativamente cuando se aplicaban a nuevos dominios o estilos de texto

La introducción de los Transformers, particularmente modelos como BERT, marcó un cambio revolucionario en la tecnología REN. Estos modelos trajeron varias mejoras revolucionarias:

1. Captura del Contexto

Consideremos estos ejemplos contrastantes:

En "Apple publicó nuevas directrices", el modelo reconoce "Apple" como una empresa porque considera el verbo "publicó" y el objeto "directrices", que típicamente se asocian con acciones corporativas.
En "Los manzanos dan fruta", el modelo identifica "manzano" como un árbol frutal porque analiza las palabras "dan" y "fruta", que proporcionan contexto botánico.

2. Comprensión Bidireccional

Los Transformers revolucionaron este enfoque implementando un análisis verdaderamente bidireccional. A diferencia de sus predecesores, procesan todo el texto simultáneamente, permitiéndoles:

Considerar tanto las palabras anteriores como las posteriores al mismo tiempo
Ponderar la importancia de las palabras independientemente de su posición en la oración
Mantener la comprensión contextual a través de largas distancias en el texto
Construir una comprensión integral de las relaciones entre todas las palabras

Esta capacidad bidireccional es particularmente poderosa para el reconocimiento de entidades. Consideremos estos ejemplos:

3. Aprendizaje por Transferencia

Quizás la ventaja más significativa de los Transformers en REN es su capacidad para aprovechar el aprendizaje por transferencia. Esta poderosa capacidad funciona en dos etapas clave:

Este enfoque de dos etapas aporta varios beneficios cruciales:

Reducción dramática en tiempo de entrenamiento y recursos computacionales comparado con entrenar modelos desde cero
Mayor precisión incluso con datos de entrenamiento limitados específicos del dominio
Mayor flexibilidad en la adaptación a nuevos dominios o tipos de entidades
Mejor generalización a través de diferentes estilos de texto y contextos

Por ejemplo, un modelo BERT pre-entrenado en texto general puede ser rápidamente adaptado para reconocer entidades especializadas en varios campos:

Dominio médico: nombres de enfermedades, medicamentos, procedimientos
Dominio legal: citas judiciales, términos legales, referencias jurisdiccionales
Dominio técnico: lenguajes de programación, componentes de software, especificaciones técnicas
Dominio financiero: nombres de empresas, instrumentos financieros, terminología de mercado

Implementación de REN con Transformers

Utilizaremos la biblioteca Hugging Face Transformers para implementar REN usando un modelo BERT pre-entrenado ajustado para clasificación de tokens.

Ejemplo de Código: Reconocimiento de Entidades Nombradas con BERT

from transformers import pipeline
import logging
from typing import List, Dict, Any
import sys

class NERProcessor:
    def __init__(self):
        try:
            # Initialize the NER pipeline
            self.ner_pipeline = pipeline("ner", grouped_entities=True)
            logging.info("NER pipeline initialized successfully")
        except Exception as e:
            logging.error(f"Failed to initialize NER pipeline: {str(e)}")
            sys.exit(1)

    def process_text(self, text: str) -> List[Dict[str, Any]]:
        """
        Process text and extract named entities
        Args:
            text: Input text to analyze
        Returns:
            List of detected entities with their details
        """
        try:
            results = self.ner_pipeline(text)
            return results
        except Exception as e:
            logging.error(f"Error processing text: {str(e)}")
            return []

    def display_results(self, results: List[Dict[str, Any]]) -> None:
        """
        Display NER results in a formatted way
        Args:
            results: List of detected entities
        """
        print("\nNamed Entities:")
        print("-" * 50)
        for entity in results:
            print(f"Entity: {entity['word']}")
            print(f"Type: {entity['entity_group']}")
            print(f"Confidence Score: {entity['score']:.4f}")
            print("-" * 50)

def main():
    # Configure logging
    logging.basicConfig(level=logging.INFO)
    
    # Initialize processor
    processor = NERProcessor()
    
    # Example texts
    texts = [
        "Barack Obama was born in Hawaii and served as the 44th President of the United States.",
        "Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022."
    ]
    
    # Process each text
    for i, text in enumerate(texts, 1):
        print(f"\nProcessing Text {i}:")
        print(f"Input: {text}")
        
        results = processor.process_text(text)
        processor.display_results(results)

if __name__ == "__main__":
    main()

Analicemos los componentes clave y las mejoras:

Estructura basada en clases: El código está organizado en una clase NERProcessor, haciéndolo más mantenible y reutilizable.
Manejo de errores: Bloques try-except integrales para manejar de manera elegante los posibles errores durante la inicialización del pipeline y el procesamiento de texto.
Sugerencias de tipo: Se agregaron sugerencias de tipo de Python para mejorar la documentación del código y el soporte del IDE.
Registro: Se implementó un registro apropiado en lugar de simples declaraciones print para mejor depuración y monitoreo.
Salida formateada: Se mejoró la visualización de resultados con formato claro y separación entre entidades.
Procesamiento de múltiples textos: Se agregó la capacidad de procesar múltiples ejemplos de texto en una sola ejecución.

Salida esperada:

Processing Text 1:
Input: Barack Obama was born in Hawaii and served as the 44th President of the United States.

Named Entities:
--------------------------------------------------
Entity: Barack Obama
Type: PER
Confidence Score: 0.9983
--------------------------------------------------
Entity: Hawaii
Type: LOC
Confidence Score: 0.9945
--------------------------------------------------
Entity: United States
Type: LOC
Confidence Score: 0.9967
--------------------------------------------------

Processing Text 2:
Input: Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022.

Named Entities:
--------------------------------------------------
Entity: Tesla
Type: ORG
Confidence Score: 0.9956
--------------------------------------------------
Entity: Elon Musk
Type: PER
Confidence Score: 0.9978
--------------------------------------------------
Entity: Twitter
Type: ORG
Confidence Score: 0.9934
--------------------------------------------------
Entity: $44 billion
Type: MONEY
Confidence Score: 0.9912
--------------------------------------------------
Entity: 2022
Type: DATE
Confidence Score: 0.9889
--------------------------------------------------

6.2.2 Ajuste Fino de un Transformer para REN

Ejemplo de Código: Ajuste Fino de BERT

from transformers import (
    AutoTokenizer, 
    AutoModelForTokenClassification, 
    Trainer, 
    TrainingArguments,
    DataCollatorForTokenClassification
)
from datasets import load_dataset
import numpy as np
from seqeval.metrics import accuracy_score, f1_score
import logging
import torch

# Set up logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class NERTrainer:
    def __init__(self, model_name="bert-base-cased", num_labels=9):
        self.model_name = model_name
        self.num_labels = num_labels
        self.label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
        
        # Initialize model and tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForTokenClassification.from_pretrained(
            model_name, 
            num_labels=num_labels
        )
        
    def prepare_dataset(self):
        """Load and prepare the CoNLL-2003 dataset"""
        logger.info("Loading dataset...")
        dataset = load_dataset("conll2003")
        
        # Tokenize and align labels
        tokenized_dataset = dataset.map(
            self._tokenize_and_align_labels,
            batched=True,
            remove_columns=dataset["train"].column_names
        )
        
        return tokenized_dataset
    
    def _tokenize_and_align_labels(self, examples):
        """Tokenize inputs and align labels with tokens"""
        tokenized_inputs = self.tokenizer(
            examples["tokens"],
            truncation=True,
            is_split_into_words=True,
            padding="max_length",
            max_length=128
        )
        
        labels = []
        for i, label in enumerate(examples["ner_tags"]):
            word_ids = tokenized_inputs.word_ids(batch_index=i)
            previous_word_idx = None
            label_ids = []
            
            for word_idx in word_ids:
                if word_idx is None:
                    label_ids.append(-100)
                elif word_idx != previous_word_idx:
                    label_ids.append(label[word_idx])
                else:
                    label_ids.append(-100)
                previous_word_idx = word_idx
                
            labels.append(label_ids)
            
        tokenized_inputs["labels"] = labels
        return tokenized_inputs
    
    def compute_metrics(self, eval_preds):
        """Compute evaluation metrics"""
        predictions, labels = eval_preds
        predictions = np.argmax(predictions, axis=2)
        
        # Remove ignored index (special tokens)
        true_predictions = [
            [self.label_names[p] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        true_labels = [
            [self.label_names[l] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        
        return {
            'accuracy': accuracy_score(true_labels, true_predictions),
            'f1': f1_score(true_labels, true_predictions)
        }
    
    def train(self, batch_size=8, num_epochs=3, learning_rate=2e-5):
        """Train the model"""
        logger.info("Starting training preparation...")
        
        # Prepare dataset
        tokenized_dataset = self.prepare_dataset()
        
        # Define training arguments
        training_args = TrainingArguments(
            output_dir="./ner_results",
            evaluation_strategy="epoch",
            learning_rate=learning_rate,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            num_train_epochs=num_epochs,
            weight_decay=0.01,
            logging_dir='./logs',
            logging_steps=100,
            save_strategy="epoch",
            load_best_model_at_end=True,
            metric_for_best_model="f1"
        )
        
        # Initialize trainer
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=tokenized_dataset["train"],
            eval_dataset=tokenized_dataset["validation"],
            data_collator=DataCollatorForTokenClassification(self.tokenizer),
            compute_metrics=self.compute_metrics
        )
        
        logger.info("Starting training...")
        trainer.train()
        
        # Save the final model
        trainer.save_model("./final_model")
        logger.info("Training completed and model saved!")
        
        return trainer

def main():
    # Initialize trainer
    ner_trainer = NERTrainer()
    
    # Train model
    trainer = ner_trainer.train()
    
    # Example prediction
    test_text = "Apple CEO Tim Cook announced new products in California."
    inputs = ner_trainer.tokenizer(test_text, return_tensors="pt", truncation=True, padding=True)
    
    with torch.no_grad():
        outputs = ner_trainer.model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
        
    tokens = ner_trainer.tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Print results
    print("\nTest Prediction:")
    print("Text:", test_text)
    print("\nPredicted Entities:")
    current_entity = None
    current_text = []
    
    for token, pred in zip(tokens, predictions[0]):
        if pred != -100:  # Ignore special tokens
            label = ner_trainer.label_names[pred]
            if label != "O":
                if label.startswith("B-"):
                    if current_entity:
                        print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = None
                    current_text = []

if __name__ == "__main__":
    main()

Desglose y Explicación del Código:

Estructura de Clase
- El código está organizado en una clase NERTrainer para mejor modularidad y reusabilidad
- Incluye la inicialización del modelo y tokenizador con parámetros configurables
- Separa las responsabilidades en métodos distintos para la preparación de datos, entrenamiento y predicción
Preparación del Conjunto de Datos
- Carga el conjunto de datos CoNLL-2003, un punto de referencia estándar para NER
- Implementa una tokenización sofisticada con alineación apropiada de etiquetas
- Maneja apropiadamente los tokens especiales y la tokenización de subpalabras
Configuración del Entrenamiento
- Implementa argumentos completos de entrenamiento incluyendo:
  - Programación de tasa de aprendizaje
  - Estrategia de evaluación
  - Configuración de registro
  - Puntos de control del modelo
- Utiliza un recopilador de datos para el procesamiento por lotes adecuado de secuencias de longitud variable
Métricas y Evaluación
- Implementa cálculo personalizado de métricas usando seqeval
- Realiza seguimiento tanto de la precisión como de la puntuación F1
- Maneja adecuadamente los tokens especiales en la evaluación
Predicción y Salida
- Incluye una demostración del uso del modelo con texto de ejemplo
- Implementa formato de salida legible para las predicciones
- Maneja la agregación de entidades que abarcan múltiples tokens
Manejo de Errores y Registro
- Implementa registro apropiado a lo largo del pipeline
- Incluye manejo de errores para operaciones críticas
- Proporciona actualizaciones informativas del progreso durante el entrenamiento

Salida Esperada:

Aquí está cómo se vería la salida esperada al ejecutar el modelo NER en el texto de prueba "Apple CEO Tim Cook announced new products in California":

Test Prediction:
Text: Apple CEO Tim Cook announced new products in California.

Predicted Entities:
ORG: Apple
PER: Tim Cook
LOC: California

La salida muestra las entidades nombradas identificadas con sus tipos correspondientes:

"Apple" se identifica como una organización (ORG)
"Tim Cook" se identifica como una persona (PER)
"California" se identifica como una ubicación (LOC)

Este formato coincide con la estructura de salida del código que procesa los tokens e imprime las entidades junto con sus tipos.

6.2.3 Uso del Modelo Ajustado

Las predicciones del modelo pueden ser post-procesadas para combinar tokens en menciones completas de entidades y filtrar predicciones de baja confianza para asegurar resultados confiables.

Ejemplo de Código: Predicción con Modelo Ajustado

# Import required libraries
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

def predict_entities(text, model_path="./final_model"):
    """
    Predict named entities in the given text using a fine-tuned model
    
    Args:
        text (str): Input text for entity recognition
        model_path (str): Path to the fine-tuned model
        
    Returns:
        list: List of tuples containing (entity_text, entity_type)
    """
    # Load model and tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForTokenClassification.from_pretrained(model_path)
    
    # Put model in evaluation mode
    model.eval()
    
    # Tokenize and prepare input
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    
    # Get predictions
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
    
    # Convert predictions to entity labels
    label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Extract entities
    entities = []
    current_entity = None
    current_text = []
    
    for token, pred_idx in zip(tokens, predictions[0]):
        if pred_idx != -100:  # Ignore special tokens
            label = label_names[pred_idx]
            
            if label != "O":
                if label.startswith("B-"):
                    # Save previous entity if exists
                    if current_entity:
                        entities.append((" ".join(current_text), current_entity))
                    # Start new entity
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    entities.append((" ".join(current_text), current_entity))
                    current_entity = None
                    current_text = []
    
    return entities

# Example usage
if __name__ == "__main__":
    # Test text
    text = "Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017."
    
    # Get predictions
    entities = predict_entities(text)
    
    # Print results in a formatted way
    print("\nInput Text:", text)
    print("\nDetected Entities:")
    for entity_text, entity_type in entities:
        print(f"{entity_type}: {entity_text}")

Desglose del Código:

Estructura de la Función
- Implementa una función predict_entities() autocontenida para fácil reutilización
- Incluye documentación apropiada con docstring
- Maneja la carga del modelo y predicción de manera limpia y organizada
Manejo del Modelo
- Carga el modelo ajustado y el tokenizador desde una ruta especificada
- Establece el modelo en modo de evaluación para desactivar dropout y otras características de entrenamiento
- Utiliza torch.no_grad() para una inferencia más eficiente
Extracción de Entidades
- Implementa lógica sofisticada de extracción de entidades
- Maneja adecuadamente las etiquetas B-(Inicio) e I-(Interior) para entidades de múltiples tokens
- Filtra tokens especiales y combina subpalabras en entidades completas
Formateo de Salida
- Devuelve una lista estructurada de tuplas de entidades
- Proporciona una salida formateada clara para fácil interpretación
- Incluye ejemplo de uso con caso de prueba realista

Salida Esperada:

Input Text: Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017.

Detected Entities:
ORG: Amazon
PER: Jeff Bezos
LOC: Seattle
ORG: Whole Foods

6.2.4 Aplicaciones del NER

1. Extracción de Información

Extraer y clasificar entidades de documentos estructurados y no estructurados en diversos formatos y contextos. Esta potente capacidad permite:

Gestión de Eventos: Identificar y extraer automáticamente fechas, horas y ubicaciones de correos electrónicos, calendarios y documentos para agilizar la programación y coordinación de eventos.
Procesamiento de Información de Contacto: Extraer eficientemente nombres, títulos, números de teléfono y direcciones de correo electrónico de tarjetas de presentación, correos electrónicos y documentos para la gestión automatizada de bases de datos de contactos.
Análisis Geográfico: Detectar y categorizar información basada en ubicaciones, incluyendo direcciones, ciudades, regiones y países para permitir el análisis espacial y la cartografía.

En dominios específicos, el NER proporciona valor especializado:

Análisis de Documentos Legales: Identificar sistemáticamente las partes involucradas en casos, fechas importantes, jurisdicciones, citas de casos y terminología legal. Esto ayuda en la revisión de documentos, preparación de casos e investigación legal.
Procesamiento de Artículos de Noticias: Rastrear y analizar exhaustivamente personas (incluyendo sus roles y títulos), organizaciones (tanto mencionadas como involucradas), ubicaciones de eventos e información temporal para permitir el monitoreo de noticias y análisis de tendencias.
Investigación Académica: Extraer y categorizar citas, nombres de autores, metodologías de investigación, conjuntos de datos utilizados, hallazgos clave y terminología técnica. Esto facilita la revisión de literatura, meta-análisis y seguimiento del impacto de la investigación.

Ejemplo de Código: Sistema de Extracción de Información

import spacy
from transformers import pipeline
from typing import List, Dict, Tuple

class InformationExtractor:
    def __init__(self):
        # Load SpaCy model for basic NLP tasks
        self.nlp = spacy.load("en_core_web_sm")
        # Initialize transformer pipeline for NER
        self.ner_pipeline = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english")
        
    def extract_information(self, text: str) -> Dict:
        """
        Extract various types of information from text including entities,
        dates, and key phrases.
        """
        # Process text with SpaCy
        doc = self.nlp(text)
        
        # Extract information using transformers
        ner_results = self.ner_pipeline(text)
        
        # Combine and structure results
        extracted_info = {
            'entities': self._process_entities(ner_results),
            'dates': self._extract_dates(doc),
            'contact_info': self._extract_contact_info(doc),
            'key_phrases': self._extract_key_phrases(doc)
        }
        
        return extracted_info
    
    def _process_entities(self, ner_results: List) -> Dict[str, List[str]]:
        """Process and categorize named entities"""
        entities = {
            'PERSON': [], 'ORG': [], 'LOC': [], 'MISC': []
        }
        
        current_entity = {'text': [], 'type': None}
        
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    entity_type = current_entity['type']
                    entity_text = ' '.join(current_entity['text'])
                    entities[entity_type].append(entity_text)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
                
        return entities
    
    def _extract_dates(self, doc) -> List[str]:
        """Extract date mentions from text"""
        return [ent.text for ent in doc.ents if ent.label_ == 'DATE']
    
    def _extract_contact_info(self, doc) -> Dict[str, List[str]]:
        """Extract contact information (emails, phones, etc.)"""
        contact_info = {
            'emails': [],
            'phones': [],
            'addresses': []
        }
        
        email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
        phone_pattern = r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b'
        
        # Extract using patterns and NER
        for ent in doc.ents:
            if ent.label_ == 'GPE':
                contact_info['addresses'].append(ent.text)
                
        # Add regex matching for emails and phones
        contact_info['emails'] = [token.text for token in doc 
                                if token.like_email]
        
        return contact_info
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases based on dependency parsing"""
        key_phrases = []
        
        for chunk in doc.noun_chunks:
            if chunk.root.dep_ in ['nsubj', 'dobj']:
                key_phrases.append(chunk.text)
                
        return key_phrases

# Example usage
if __name__ == "__main__":
    extractor = InformationExtractor()
    
    sample_text = """
    John Smith, CEO of Tech Solutions Inc., will be speaking at our conference 
    on March 15, 2025. Contact him at john.smith@techsolutions.com or 
    call 555-123-4567. The event will be held at 123 Innovation Drive, 
    Silicon Valley, CA.
    """
    
    results = extractor.extract_information(sample_text)
    
    # Print results in a formatted way
    print("\nExtracted Information:")
    print("\nEntities:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}: {', '.join(entities)}")
    
    print("\nDates:", ', '.join(results['dates']))
    print("\nContact Information:")
    for info_type, info in results['contact_info'].items():
        print(f"{info_type}: {', '.join(info)}")
    
    print("\nKey Phrases:", ', '.join(results['key_phrases']))

Desglose y Explicación del Código:

Estructura de la Clase
- Implementa una clase InformationExtractor integral que combina múltiples herramientas de PLN
- Utiliza tanto SpaCy como Transformers para un reconocimiento de entidades robusto
- Organiza la lógica de extracción en métodos separados para facilitar el mantenimiento
Componentes de Extracción de Información
- Reconocimiento de entidades nombradas utilizando modelos transformer de última generación
- Extracción de fechas utilizando el reconocimiento de entidades de SpaCy
- Extracción de información de contacto utilizando tanto coincidencia de patrones como REN
- Extracción de frases clave utilizando análisis de dependencias
Lógica de Procesamiento
- Maneja la continuidad de entidades con etiquetas B-(Inicio) e I-(Interior)
- Implementa análisis de texto sofisticado para varios tipos de información
- Combina múltiples técnicas de extracción para resultados robustos
Organización de Salida
- Devuelve un diccionario estructurado con información categorizada
- Separa diferentes tipos de información extraída
- Proporciona una salida limpia y formateada para fácil interpretación

Salida Esperada:

Extracted Information:

Entities:
PERSON: John Smith
ORG: Tech Solutions Inc.
LOC: Silicon Valley, CA

Dates: March 15, 2025

Contact Information:
emails: john.smith@techsolutions.com
phones: 555-123-4567
addresses: Silicon Valley, CA

Key Phrases: John Smith, CEO of Tech Solutions Inc., our conference

2. Salud

Organizar y recuperar mejor la información del paciente
Mejorar la coordinación de la atención entre proveedores
Apoyar la toma de decisiones clínicas basada en evidencia
Mejorar el seguimiento de métricas de calidad
Agilizar los procesos de seguros y facturación

Ejemplo de Código: Sistema de Reconocimiento de Entidades Médicas

from transformers import pipeline
from typing import Dict, List, Tuple
import re
import spacy

class MedicalEntityExtractor:
    def __init__(self):
        # Load specialized medical NER model
        self.med_ner = pipeline("ner", model="alvaroalon2/biobert_diseases_ner")
        # Load SpaCy model for additional medical entities
        self.nlp = spacy.load("en_core_sci_md")
        
    def process_medical_text(self, text: str) -> Dict[str, List[str]]:
        """
        Extract medical entities from clinical text.
        
        Args:
            text (str): Clinical text to analyze
            
        Returns:
            Dict containing categorized medical entities
        """
        # Initialize categories
        medical_entities = {
            'conditions': [],
            'medications': [],
            'procedures': [],
            'lab_tests': [],
            'vitals': [],
            'anatomical_sites': []
        }
        
        # Process with transformer pipeline
        ner_results = self.med_ner(text)
        
        # Process with SpaCy
        doc = self.nlp(text)
        
        # Extract entities from transformer results
        current_entity = {'text': [], 'type': None}
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    self._add_entity(medical_entities, current_entity)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
        
        # Add final entity if exists
        if current_entity['text']:
            self._add_entity(medical_entities, current_entity)
        
        # Extract measurements and vitals
        self._extract_measurements(text, medical_entities)
        
        # Extract medications using regex patterns
        self._extract_medications(text, medical_entities)
        
        return medical_entities
    
    def _add_entity(self, medical_entities: Dict, entity: Dict):
        """Add extracted entity to appropriate category"""
        entity_text = ' '.join(entity['text'])
        entity_type = entity['type']
        
        if entity_type == 'DISEASE':
            medical_entities['conditions'].append(entity_text)
        elif entity_type == 'PROCEDURE':
            medical_entities['procedures'].append(entity_text)
        elif entity_type == 'TEST':
            medical_entities['lab_tests'].append(entity_text)
            
    def _extract_measurements(self, text: str, medical_entities: Dict):
        """Extract vital signs and measurements"""
        # Patterns for common vital signs
        vital_patterns = {
            'blood_pressure': r'\d{2,3}/\d{2,3}',
            'temperature': r'\d{2}\.?\d*°[CF]',
            'pulse': r'HR:?\s*\d{2,3}',
            'oxygen': r'O2\s*sat:?\s*\d{2,3}%'
        }
        
        for vital_type, pattern in vital_patterns.items():
            matches = re.finditer(pattern, text)
            medical_entities['vitals'].extend(
                [match.group() for match in matches]
            )
            
    def _extract_medications(self, text: str, medical_entities: Dict):
        """Extract medication information"""
        # Pattern for medication with optional dosage
        med_pattern = r'\b\w+\s*\d*\s*mg/\w+|\b\w+\s*\d*\s*mg\b'
        matches = re.finditer(med_pattern, text)
        medical_entities['medications'].extend(
            [match.group() for match in matches]
        )

# Example usage
if __name__ == "__main__":
    extractor = MedicalEntityExtractor()
    
    sample_text = """
    Patient presents with acute bronchitis and hypertension. 
    BP: 140/90, Temperature: 38.5°C, HR: 88, O2 sat: 97%
    Currently taking Lisinopril 10mg daily and Ventolin 2.5mg/mL PRN.
    Lab tests ordered: CBC, CMP, and chest X-ray.
    """
    
    results = extractor.process_medical_text(sample_text)
    
    print("\nExtracted Medical Entities:")
    for category, entities in results.items():
        if entities:
            print(f"\n{category.title()}:")
            for entity in entities:
                print(f"- {entity}")

Desglose del Código:

Arquitectura de Clase
- Implementa una clase MedicalEntityExtractor especializada que combina múltiples enfoques de PLN
- Utiliza el modelo BioBERT ajustado para el reconocimiento de entidades médicas
- Incorpora el modelo científico de SpaCy para la detección adicional de entidades
Procesamiento de Entidades
- Maneja varios tipos de entidades médicas incluyendo condiciones, medicamentos y procedimientos
- Implementa coincidencia de patrones sofisticada para signos vitales y mediciones
- Utiliza patrones regex para la extracción de medicamentos con información de dosificación
Características Avanzadas
- Combina enfoques basados en transformers y reglas para una cobertura integral
- Maneja terminología médica compleja y abreviaturas
- Procesa texto clínico estructurado y no estructurado

Salida Esperada:

Extracted Medical Entities:

Conditions:
- acute bronchitis
- hypertension

Vitals:
- 140/90
- 38.5°C
- HR: 88
- O2 sat: 97%

Medications:
- Lisinopril 10mg
- Ventolin 2.5mg/mL

Lab Tests:
- CBC
- CMP
- chest X-ray

3. Análisis de Comentarios de Clientes

Además, las capacidades avanzadas de reconocimiento de entidades del sistema se extienden a la inteligencia competitiva mediante:

El reconocimiento de nombres de competidores y productos en comparaciones de clientes
El seguimiento de información de precios y ofertas promocionales en los mercados
El análisis de indicadores de calidad de servicio a través de narrativas de experiencia del cliente
La identificación de tendencias emergentes del mercado y preferencias de los clientes
El monitoreo del panorama competitivo para nuevos lanzamientos o características de productos

Ejemplo de Código: Sistema de Análisis de Comentarios de Clientes

from transformers import pipeline
from typing import Dict, List, Tuple
import pandas as pd
import spacy
from collections import defaultdict

class CustomerFeedbackAnalyzer:
    def __init__(self):
        # Initialize sentiment analysis pipeline
        self.sentiment_analyzer = pipeline("sentiment-analysis")
        # Initialize NER pipeline for product/feature detection
        self.ner = spacy.load("en_core_web_sm")
        # Initialize aspect-based sentiment classifier
        self.aspect_classifier = pipeline("text-classification", 
                                       model="nlptown/bert-base-multilingual-uncased-sentiment")
    
    def analyze_feedback(self, feedback: str) -> Dict:
        """
        Analyze customer feedback for sentiment, entities, and aspects.
        
        Args:
            feedback (str): Customer feedback text
            
        Returns:
            Dict containing analysis results
        """
        results = {
            'overall_sentiment': None,
            'entities': defaultdict(list),
            'aspects': [],
            'key_phrases': []
        }
        
        # Overall sentiment analysis
        sentiment = self.sentiment_analyzer(feedback)[0]
        results['overall_sentiment'] = {
            'label': sentiment['label'],
            'score': sentiment['score']
        }
        
        # Entity recognition
        doc = self.ner(feedback)
        for ent in doc.ents:
            results['entities'][ent.label_].append({
                'text': ent.text,
                'start': ent.start_char,
                'end': ent.end_char
            })
        
        # Aspect-based sentiment analysis
        aspects = self._extract_aspects(doc)
        for aspect in aspects:
            aspect_text = aspect['text']
            aspect_context = self._get_aspect_context(feedback, aspect)
            aspect_sentiment = self.aspect_classifier(aspect_context)[0]
            
            results['aspects'].append({
                'aspect': aspect_text,
                'sentiment': aspect_sentiment['label'],
                'confidence': aspect_sentiment['score'],
                'context': aspect_context
            })
        
        # Extract key phrases
        results['key_phrases'] = self._extract_key_phrases(doc)
        
        return results
    
    def _extract_aspects(self, doc) -> List[Dict]:
        """Extract product aspects/features from text"""
        aspects = []
        
        # Pattern matching for noun phrases
        for chunk in doc.noun_chunks:
            if self._is_valid_aspect(chunk):
                aspects.append({
                    'text': chunk.text,
                    'start': chunk.start_char,
                    'end': chunk.end_char
                })
        
        return aspects
    
    def _is_valid_aspect(self, chunk) -> bool:
        """Validate if noun chunk is a valid product aspect"""
        invalid_words = {'i', 'you', 'he', 'she', 'it', 'we', 'they'}
        return (
            chunk.root.pos_ == 'NOUN' and
            chunk.root.text.lower() not in invalid_words
        )
    
    def _get_aspect_context(self, text: str, aspect: Dict, window: int = 50) -> str:
        """Extract context around an aspect for sentiment analysis"""
        start = max(0, aspect['start'] - window)
        end = min(len(text), aspect['end'] + window)
        return text[start:end]
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases from feedback"""
        key_phrases = []
        
        for sent in doc.sents:
            # Extract subject-verb-object patterns
            for token in sent:
                if token.dep_ == 'nsubj' and token.head.pos_ == 'VERB':
                    phrase = self._build_phrase(token)
                    if phrase:
                        key_phrases.append(phrase)
        
        return key_phrases
    
    def _build_phrase(self, token) -> str:
        """Build meaningful phrase from dependency parse"""
        words = []
        
        # Get subject
        words.extend(token.subtree)
        
        # Sort words by their position in text
        words = sorted(words, key=lambda x: x.i)
        
        return ' '.join([word.text for word in words])

# Example usage
if __name__ == "__main__":
    analyzer = CustomerFeedbackAnalyzer()
    
    feedback = """
    The new iPhone 13's battery life is impressive, but the camera quality could be better.
    Face ID works flawlessly in low light conditions. However, the price point is quite high
    compared to similar Android phones.
    """
    
    results = analyzer.analyze_feedback(feedback)
    
    print("Analysis Results:")
    print("\nOverall Sentiment:", results['overall_sentiment']['label'])
    print("\nEntities Found:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}:", [e['text'] for e in entities])
    
    print("\nAspect-Based Sentiment:")
    for aspect in results['aspects']:
        print(f"- {aspect['aspect']}: {aspect['sentiment']}")
    
    print("\nKey Phrases:")
    for phrase in results['key_phrases']:
        print(f"- {phrase}")

Desglose y Explicación del Código:

Arquitectura de Clase
- Implementa CustomerFeedbackAnalyzer combinando múltiples técnicas de PLN
- Utiliza modelos basados en transformers para análisis y clasificación de sentimientos
- Incorpora SpaCy para el reconocimiento de entidades y análisis de dependencias
Componentes de Análisis
- Análisis general de sentimientos utilizando modelos transformer pre-entrenados
- Reconocimiento de entidades para identificación de productos y características
- Análisis de sentimientos basado en aspectos para características específicas de productos
- Extracción de frases clave mediante análisis de dependencias
Características Avanzadas
- Análisis de ventana contextual para sentimientos precisos de aspectos
- Construcción sofisticada de frases a partir de árboles de dependencias
- Categorización flexible de entidades y puntuación de sentimientos

Salida Esperada:

Analysis Results:

Overall Sentiment: POSITIVE

Entities Found:
PRODUCT: ['iPhone 13', 'Android']
ORG: ['Face ID']

Aspect-Based Sentiment:
- battery life: POSITIVE
- camera quality: NEGATIVE
- Face ID: POSITIVE
- price point: NEGATIVE

Key Phrases:
- battery life is impressive
- camera quality could be better
- Face ID works flawlessly
- price point is quite high

4. Motores de Búsqueda

Esta tecnología también permite características sofisticadas como:

Expansión de consultas: Inclusión automática de términos relacionados y sinónimos
Búsqueda semántica: Comprensión del significado detrás de las consultas en lugar de solo emparejar palabras clave
Resultados personalizados: Adaptación de los resultados de búsqueda basados en las preferencias del usuario e interacciones previas con entidades
Búsquedas relacionadas: Sugerencia de consultas relevantes basadas en relaciones entre entidades y patrones comunes de búsqueda

Ejemplo de Código: Motor de Búsqueda Consciente de Entidades

from transformers import AutoTokenizer, AutoModel
from typing import List, Dict, Tuple
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import spacy

class EntityAwareSearchEngine:
    def __init__(self):
        # Initialize BERT model for semantic understanding
        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
        self.model = AutoModel.from_pretrained('bert-base-uncased')
        # Load SpaCy for entity recognition
        self.nlp = spacy.load('en_core_web_sm')
        # Initialize document store
        self.document_embeddings = {}
        self.document_entities = {}
    
    def index_document(self, doc_id: str, content: str):
        """
        Index a document with its embeddings and entities
        """
        # Generate document embedding
        inputs = self.tokenizer(content, return_tensors='pt', 
                              truncation=True, max_length=512)
        with torch.no_grad():
            outputs = self.model(**inputs)
            embedding = outputs.last_hidden_state.mean(dim=1)
        
        # Store document embedding
        self.document_embeddings[doc_id] = embedding
        
        # Extract and store entities
        doc = self.nlp(content)
        self.document_entities[doc_id] = {
            'entities': [(ent.text, ent.label_) for ent in doc.ents],
            'content': content
        }
    
    def search(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        Perform entity-aware search
        """
        # Extract entities from query
        query_doc = self.nlp(query)
        query_entities = [(ent.text, ent.label_) for ent in query_doc.ents]
        
        # Generate query embedding
        query_inputs = self.tokenizer(query, return_tensors='pt',
                                    truncation=True, max_length=512)
        with torch.no_grad():
            query_outputs = self.model(**query_inputs)
            query_embedding = query_outputs.last_hidden_state.mean(dim=1)
        
        results = []
        for doc_id, doc_embedding in self.document_embeddings.items():
            # Calculate semantic similarity
            similarity = cosine_similarity(
                query_embedding.numpy(),
                doc_embedding.numpy()
            )[0][0]
            
            # Calculate entity match score
            entity_score = self._calculate_entity_score(
                query_entities,
                self.document_entities[doc_id]['entities']
            )
            
            # Combine scores
            final_score = 0.7 * similarity + 0.3 * entity_score
            
            results.append({
                'doc_id': doc_id,
                'score': final_score,
                'content': self.document_entities[doc_id]['content'][:200] + '...',
                'matched_entities': self._get_matching_entities(
                    query_entities,
                    self.document_entities[doc_id]['entities']
                )
            })
        
        # Sort by score and return top_k results
        results.sort(key=lambda x: x['score'], reverse=True)
        return results[:top_k]
    
    def _calculate_entity_score(self, query_entities: List[Tuple],
                              doc_entities: List[Tuple]) -> float:
        """
        Calculate entity matching score between query and document
        """
        if not query_entities:
            return 0.0
        
        matches = 0
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches += 1
                    break
        
        return matches / len(query_entities)
    
    def _get_matching_entities(self, query_entities: List[Tuple],
                             doc_entities: List[Tuple]) -> List[Dict]:
        """
        Get list of matching entities between query and document
        """
        matches = []
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches.append({
                        'text': d_ent[0],
                        'type': d_ent[1]
                    })
        return matches

# Example usage
if __name__ == "__main__":
    search_engine = EntityAwareSearchEngine()
    
    # Index sample documents
    documents = {
        "doc1": "Apple CEO Tim Cook announced new iPhone models at the event in Cupertino.",
        "doc2": "The apple pie recipe requires fresh apples from Washington state.",
        "doc3": "Microsoft and Apple are leading tech companies in the US market."
    }
    
    for doc_id, content in documents.items():
        search_engine.index_document(doc_id, content)
    
    # Perform search
    results = search_engine.search("What did Tim Cook announce?")
    
    print("Search Results:")
    for result in results:
        print(f"\nDocument {result['doc_id']} (Score: {result['score']:.2f})")
        print(f"Content: {result['content']}")
        print("Matched Entities:", result['matched_entities'])

Desglose y Explicación del Código:

Componentes Principales
- Combina búsqueda semántica basada en BERT con reconocimiento de entidades
- Utiliza SpaCy para la extracción y clasificación eficiente de entidades
- Implementa un sistema híbrido de puntuación que combina coincidencias semánticas y de entidades
Características Principales
- Indexación de documentos con información de embeddings y entidades
- Búsqueda consciente de entidades que considera tanto la similitud semántica como las coincidencias de entidades
- Sistema flexible de puntuación con pesos configurables para diferentes factores
Capacidades Avanzadas
- Maneja la desambiguación de entidades a través del contexto
- Proporciona resultados de búsqueda detallados con entidades coincidentes
- Admite la clasificación de documentos basada en múltiples factores de relevancia

Salida Esperada:

Search Results:

Document doc1 (Score: 0.85)
Content: Apple CEO Tim Cook announced new iPhone models at the event in Cupertino...
Matched Entities: [
    {'text': 'Tim Cook', 'type': 'PERSON'},
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc3 (Score: 0.45)
Content: Microsoft and Apple are leading tech companies in the US market...
Matched Entities: [
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc2 (Score: 0.15)
Content: The apple pie recipe requires fresh apples from Washington state...
Matched Entities: []

6.2.5 Desafíos en el NER

Ambigüedad

Ambigüedad del Tipo de Entidad: Ejemplos comunes incluyen:

"Apple": Podría representar la empresa tecnológica (ORGANIZACIÓN), la fruta (ALIMENTO), o Apple Records (ORGANIZACIÓN)
"Washington": Puede referirse al estado de EE. UU. (UBICACIÓN), la ciudad capital (UBICACIÓN), o George Washington (PERSONA)
"Mercury": Podría indicar el planeta (CUERPO_CELESTE), el elemento químico (SUSTANCIA), o la marca de automóviles (ORGANIZACIÓN)

Esta ambigüedad se vuelve particularmente desafiante para los sistemas NER porque la clasificación precisa requiere:

Análisis Contextual: Examinar las palabras y frases circundantes para determinar el tipo de entidad apropiado
Conocimiento del Dominio: Comprender el tema o campo más amplio del texto
Comprensión Semántica: Captar el significado general y la intención del pasaje
Reconocimiento de Relaciones: Identificar cómo la entidad se relaciona con otras entidades mencionadas

Los sistemas NER deben emplear algoritmos sofisticados y pistas contextuales para resolver estas ambigüedades, utilizando frecuentemente:

Contexto a nivel de documento
Datos de entrenamiento específicos del sector
Resolución de correferencias
Vinculación de entidades con bases de conocimiento

Variaciones Específicas del Dominio

Tipos de Entidades Específicas del Dominio:

Dominio Legal: Los documentos contienen entidades especializadas como citas de casos (por ejemplo, "Brown v. Board of Education"), estatutos (por ejemplo, "Sección 230 de la Ley de Decencia en las Comunicaciones"), principios legales (por ejemplo, "doctrina del uso justo"), y referencias jurisdiccionales.
Dominio Biomédico: Los textos frecuentemente hacen referencia a secuencias genéticas (por ejemplo, "BRCA1"), clasificaciones de enfermedades (por ejemplo, "Diabetes Tipo 2"), nombres de medicamentos (por ejemplo, "metilprednisolona"), y términos anatómicos.
Dominio Financiero: Las entidades incluyen símbolos bursátiles, índices de mercado, instrumentos financieros y referencias regulatorias.

Requisitos de Entrenamiento:

Cada dominio necesita conjuntos de datos de entrenamiento cuidadosamente curados que capturen el vocabulario único y las relaciones entre entidades dentro de ese campo.
Pueden requerirse arquitecturas de modelo personalizadas para manejar patrones y relaciones específicos del dominio de manera efectiva.
A menudo se necesitan expertos del dominio para crear pautas precisas de anotación y validar datos de entrenamiento.

Desafíos Entre Dominios:

Los términos pueden tener significados radicalmente diferentes entre dominios:
- "Java" → Lenguaje de programación (Tecnología)
- "Java" → Ubicación geográfica (Viajes/Geografía)
- "Java" → Variedad de café (Alimentos/Bebidas)
El contexto se vuelve crucial para la clasificación precisa de entidades
El aprendizaje por transferencia entre dominios puede ser limitado debido a estas diferencias fundamentales en terminología y patrones de uso.

Idiomas con Recursos Limitados

Escasez de Datos:

Conjuntos de datos anotados limitados para entrenamiento
- Ejemplos insuficientes del mundo real para la validación del modelo
- Falta de referencias estandarizadas para la evaluación del rendimiento

Complejidad Lingüística:

Estructuras gramaticales únicas que difieren de los idiomas con muchos recursos
- Sistemas morfológicos complejos que requieren procesamiento especializado
- Sistemas de escritura que pueden no seguir reglas convencionales de tokenización

Limitaciones Técnicas:

Pocos o ningún modelo pre-entrenado disponible
- Recursos computacionales limitados dedicados a estos idiomas
- Falta de categorías de entidades estandarizadas que reflejen el contexto cultural

Este desafío se extiende más allá de los idiomas raros para incluir:

Dialectos regionales con vocabulario y gramática únicos
Vocabularios técnicos en campos especializados
Idiomas emergentes y comunicaciones digitales

Los enfoques tradicionales de NER, que fueron desarrollados principalmente para idiomas con muchos recursos como el inglés, a menudo tienen dificultades con estos idiomas debido a:

Suposiciones sobre el orden de las palabras y la sintaxis que pueden no aplicar
Dependencia de datos de entrenamiento a gran escala que no están disponibles
Comprensión limitada de matices culturales y contextuales

6.2.6 Puntos Clave

El Reconocimiento de Entidades Nombradas (NER) es una tarea crucial de PLN que identifica y clasifica automáticamente entidades nombradas dentro del texto. Sirve como un componente fundamental para muchas aplicaciones avanzadas de procesamiento del lenguaje natural al identificar elementos específicos como:
- Personas y nombres personales
- Organizaciones e instituciones
- Ubicaciones geográficas y lugares
- Fechas, horas y expresiones temporales
- Cantidades, medidas y valores monetarios
Las arquitecturas Transformer, con BERT a la cabeza, han avanzado significativamente las capacidades del NER a través de varias innovaciones clave:
- Mecanismos avanzados de atención que capturan dependencias de largo alcance en el texto
- Comprensión contextual que ayuda a desambiguar entidades basándose en las palabras circundantes
- Pre-entrenamiento en conjuntos de datos masivos que construye una comprensión robusta del lenguaje
- Capacidades de ajuste fino que permiten la adaptación a dominios específicos
- Tokenización de subpalabras que maneja efectivamente palabras fuera del vocabulario
Las aplicaciones prácticas del NER abarcan una amplia gama de industrias y casos de uso:
- Salud: Extracción de entidades médicas de notas clínicas y artículos de investigación
- Legal: Identificación de partes, citas y jurisdicciones en documentos legales
- Finanzas: Reconocimiento de nombres de empresas, instrumentos financieros y transacciones
- Investigación: Automatización de revisión de literatura y extracción de conocimiento
- Medios: Seguimiento de menciones de personas, organizaciones y eventos
Si bien la tecnología NER ha logrado avances significativos, continúa enfrentando desafíos importantes:
- Ambigüedad contextual donde la misma palabra puede representar diferentes tipos de entidades
- Terminología específica del dominio que requiere datos de entrenamiento especializados
- Manejo de entidades emergentes y casos raros
- Dificultades de adaptación entre dominios y entre idiomas
- Requisitos de procesamiento en tiempo real para aplicaciones a gran escala

6.2 Reconocimiento de Entidades Nombradas (REN)

Nombres de personas (como políticos, autores o figuras históricas)
Organizaciones (empresas, instituciones, agencias gubernamentales)
Ubicaciones (países, ciudades, puntos de referencia)
Expresiones temporales (fechas, horas, duraciones)
Cantidades (valores monetarios, porcentajes, mediciones)
Nombres de productos (marcas, modelos, servicios)

Para ilustrar cómo funciona el REN en la práctica, considere esta oración de ejemplo:

"Apple Inc. lanzó el iPhone en California el 9 de enero de 2007,"

Al procesar esta oración, un sistema REN identifica:

"Apple Inc." como una Organización - distinguiéndola de la fruta gracias a la comprensión contextual
"California" como una Ubicación - reconociéndola como una entidad geográfica
"9 de enero de 2007" como una Fecha - analizando y estandarizando la expresión temporal

El REN sirve como un componente crucial en varias aplicaciones del mundo real:

Extracción de Información: Obtención automática de datos estructurados a partir de documentos de texto no estructurados
Sistemas de Respuesta a Preguntas: Comprensión de entidades mencionadas en preguntas para proporcionar respuestas precisas
Procesamiento de Documentos: Organización y categorización de documentos basados en las entidades mencionadas
Recomendación de Contenido: Identificación de contenido relevante basado en relaciones entre entidades
Monitoreo de Cumplimiento: Detección y seguimiento de menciones de entidades reguladas o información sensible

6.2.1 Cómo los Transformers Mejoran el REN

Los sistemas basados en reglas requerían un extenso esfuerzo manual para crear y mantener las reglas
Los modelos estadísticos necesitaban una cuidadosa ingeniería de características para cada nuevo dominio
Ambos enfoques tenían dificultades con la ambigüedad contextual
El rendimiento se degradaba significativamente cuando se aplicaban a nuevos dominios o estilos de texto

La introducción de los Transformers, particularmente modelos como BERT, marcó un cambio revolucionario en la tecnología REN. Estos modelos trajeron varias mejoras revolucionarias:

1. Captura del Contexto

Consideremos estos ejemplos contrastantes:

En "Apple publicó nuevas directrices", el modelo reconoce "Apple" como una empresa porque considera el verbo "publicó" y el objeto "directrices", que típicamente se asocian con acciones corporativas.
En "Los manzanos dan fruta", el modelo identifica "manzano" como un árbol frutal porque analiza las palabras "dan" y "fruta", que proporcionan contexto botánico.

2. Comprensión Bidireccional

Los Transformers revolucionaron este enfoque implementando un análisis verdaderamente bidireccional. A diferencia de sus predecesores, procesan todo el texto simultáneamente, permitiéndoles:

Considerar tanto las palabras anteriores como las posteriores al mismo tiempo
Ponderar la importancia de las palabras independientemente de su posición en la oración
Mantener la comprensión contextual a través de largas distancias en el texto
Construir una comprensión integral de las relaciones entre todas las palabras

Esta capacidad bidireccional es particularmente poderosa para el reconocimiento de entidades. Consideremos estos ejemplos:

3. Aprendizaje por Transferencia

Quizás la ventaja más significativa de los Transformers en REN es su capacidad para aprovechar el aprendizaje por transferencia. Esta poderosa capacidad funciona en dos etapas clave:

Este enfoque de dos etapas aporta varios beneficios cruciales:

Reducción dramática en tiempo de entrenamiento y recursos computacionales comparado con entrenar modelos desde cero
Mayor precisión incluso con datos de entrenamiento limitados específicos del dominio
Mayor flexibilidad en la adaptación a nuevos dominios o tipos de entidades
Mejor generalización a través de diferentes estilos de texto y contextos

Por ejemplo, un modelo BERT pre-entrenado en texto general puede ser rápidamente adaptado para reconocer entidades especializadas en varios campos:

Dominio médico: nombres de enfermedades, medicamentos, procedimientos
Dominio legal: citas judiciales, términos legales, referencias jurisdiccionales
Dominio técnico: lenguajes de programación, componentes de software, especificaciones técnicas
Dominio financiero: nombres de empresas, instrumentos financieros, terminología de mercado

Implementación de REN con Transformers

Utilizaremos la biblioteca Hugging Face Transformers para implementar REN usando un modelo BERT pre-entrenado ajustado para clasificación de tokens.

Ejemplo de Código: Reconocimiento de Entidades Nombradas con BERT

from transformers import pipeline
import logging
from typing import List, Dict, Any
import sys

class NERProcessor:
    def __init__(self):
        try:
            # Initialize the NER pipeline
            self.ner_pipeline = pipeline("ner", grouped_entities=True)
            logging.info("NER pipeline initialized successfully")
        except Exception as e:
            logging.error(f"Failed to initialize NER pipeline: {str(e)}")
            sys.exit(1)

    def process_text(self, text: str) -> List[Dict[str, Any]]:
        """
        Process text and extract named entities
        Args:
            text: Input text to analyze
        Returns:
            List of detected entities with their details
        """
        try:
            results = self.ner_pipeline(text)
            return results
        except Exception as e:
            logging.error(f"Error processing text: {str(e)}")
            return []

    def display_results(self, results: List[Dict[str, Any]]) -> None:
        """
        Display NER results in a formatted way
        Args:
            results: List of detected entities
        """
        print("\nNamed Entities:")
        print("-" * 50)
        for entity in results:
            print(f"Entity: {entity['word']}")
            print(f"Type: {entity['entity_group']}")
            print(f"Confidence Score: {entity['score']:.4f}")
            print("-" * 50)

def main():
    # Configure logging
    logging.basicConfig(level=logging.INFO)
    
    # Initialize processor
    processor = NERProcessor()
    
    # Example texts
    texts = [
        "Barack Obama was born in Hawaii and served as the 44th President of the United States.",
        "Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022."
    ]
    
    # Process each text
    for i, text in enumerate(texts, 1):
        print(f"\nProcessing Text {i}:")
        print(f"Input: {text}")
        
        results = processor.process_text(text)
        processor.display_results(results)

if __name__ == "__main__":
    main()

Analicemos los componentes clave y las mejoras:

Estructura basada en clases: El código está organizado en una clase NERProcessor, haciéndolo más mantenible y reutilizable.
Manejo de errores: Bloques try-except integrales para manejar de manera elegante los posibles errores durante la inicialización del pipeline y el procesamiento de texto.
Sugerencias de tipo: Se agregaron sugerencias de tipo de Python para mejorar la documentación del código y el soporte del IDE.
Registro: Se implementó un registro apropiado en lugar de simples declaraciones print para mejor depuración y monitoreo.
Salida formateada: Se mejoró la visualización de resultados con formato claro y separación entre entidades.
Procesamiento de múltiples textos: Se agregó la capacidad de procesar múltiples ejemplos de texto en una sola ejecución.

Salida esperada:

Processing Text 1:
Input: Barack Obama was born in Hawaii and served as the 44th President of the United States.

Named Entities:
--------------------------------------------------
Entity: Barack Obama
Type: PER
Confidence Score: 0.9983
--------------------------------------------------
Entity: Hawaii
Type: LOC
Confidence Score: 0.9945
--------------------------------------------------
Entity: United States
Type: LOC
Confidence Score: 0.9967
--------------------------------------------------

Processing Text 2:
Input: Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022.

Named Entities:
--------------------------------------------------
Entity: Tesla
Type: ORG
Confidence Score: 0.9956
--------------------------------------------------
Entity: Elon Musk
Type: PER
Confidence Score: 0.9978
--------------------------------------------------
Entity: Twitter
Type: ORG
Confidence Score: 0.9934
--------------------------------------------------
Entity: $44 billion
Type: MONEY
Confidence Score: 0.9912
--------------------------------------------------
Entity: 2022
Type: DATE
Confidence Score: 0.9889
--------------------------------------------------

6.2.2 Ajuste Fino de un Transformer para REN

Ejemplo de Código: Ajuste Fino de BERT

from transformers import (
    AutoTokenizer, 
    AutoModelForTokenClassification, 
    Trainer, 
    TrainingArguments,
    DataCollatorForTokenClassification
)
from datasets import load_dataset
import numpy as np
from seqeval.metrics import accuracy_score, f1_score
import logging
import torch

# Set up logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class NERTrainer:
    def __init__(self, model_name="bert-base-cased", num_labels=9):
        self.model_name = model_name
        self.num_labels = num_labels
        self.label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
        
        # Initialize model and tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForTokenClassification.from_pretrained(
            model_name, 
            num_labels=num_labels
        )
        
    def prepare_dataset(self):
        """Load and prepare the CoNLL-2003 dataset"""
        logger.info("Loading dataset...")
        dataset = load_dataset("conll2003")
        
        # Tokenize and align labels
        tokenized_dataset = dataset.map(
            self._tokenize_and_align_labels,
            batched=True,
            remove_columns=dataset["train"].column_names
        )
        
        return tokenized_dataset
    
    def _tokenize_and_align_labels(self, examples):
        """Tokenize inputs and align labels with tokens"""
        tokenized_inputs = self.tokenizer(
            examples["tokens"],
            truncation=True,
            is_split_into_words=True,
            padding="max_length",
            max_length=128
        )
        
        labels = []
        for i, label in enumerate(examples["ner_tags"]):
            word_ids = tokenized_inputs.word_ids(batch_index=i)
            previous_word_idx = None
            label_ids = []
            
            for word_idx in word_ids:
                if word_idx is None:
                    label_ids.append(-100)
                elif word_idx != previous_word_idx:
                    label_ids.append(label[word_idx])
                else:
                    label_ids.append(-100)
                previous_word_idx = word_idx
                
            labels.append(label_ids)
            
        tokenized_inputs["labels"] = labels
        return tokenized_inputs
    
    def compute_metrics(self, eval_preds):
        """Compute evaluation metrics"""
        predictions, labels = eval_preds
        predictions = np.argmax(predictions, axis=2)
        
        # Remove ignored index (special tokens)
        true_predictions = [
            [self.label_names[p] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        true_labels = [
            [self.label_names[l] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        
        return {
            'accuracy': accuracy_score(true_labels, true_predictions),
            'f1': f1_score(true_labels, true_predictions)
        }
    
    def train(self, batch_size=8, num_epochs=3, learning_rate=2e-5):
        """Train the model"""
        logger.info("Starting training preparation...")
        
        # Prepare dataset
        tokenized_dataset = self.prepare_dataset()
        
        # Define training arguments
        training_args = TrainingArguments(
            output_dir="./ner_results",
            evaluation_strategy="epoch",
            learning_rate=learning_rate,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            num_train_epochs=num_epochs,
            weight_decay=0.01,
            logging_dir='./logs',
            logging_steps=100,
            save_strategy="epoch",
            load_best_model_at_end=True,
            metric_for_best_model="f1"
        )
        
        # Initialize trainer
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=tokenized_dataset["train"],
            eval_dataset=tokenized_dataset["validation"],
            data_collator=DataCollatorForTokenClassification(self.tokenizer),
            compute_metrics=self.compute_metrics
        )
        
        logger.info("Starting training...")
        trainer.train()
        
        # Save the final model
        trainer.save_model("./final_model")
        logger.info("Training completed and model saved!")
        
        return trainer

def main():
    # Initialize trainer
    ner_trainer = NERTrainer()
    
    # Train model
    trainer = ner_trainer.train()
    
    # Example prediction
    test_text = "Apple CEO Tim Cook announced new products in California."
    inputs = ner_trainer.tokenizer(test_text, return_tensors="pt", truncation=True, padding=True)
    
    with torch.no_grad():
        outputs = ner_trainer.model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
        
    tokens = ner_trainer.tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Print results
    print("\nTest Prediction:")
    print("Text:", test_text)
    print("\nPredicted Entities:")
    current_entity = None
    current_text = []
    
    for token, pred in zip(tokens, predictions[0]):
        if pred != -100:  # Ignore special tokens
            label = ner_trainer.label_names[pred]
            if label != "O":
                if label.startswith("B-"):
                    if current_entity:
                        print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = None
                    current_text = []

if __name__ == "__main__":
    main()

Desglose y Explicación del Código:

Estructura de Clase
- El código está organizado en una clase NERTrainer para mejor modularidad y reusabilidad
- Incluye la inicialización del modelo y tokenizador con parámetros configurables
- Separa las responsabilidades en métodos distintos para la preparación de datos, entrenamiento y predicción
Preparación del Conjunto de Datos
- Carga el conjunto de datos CoNLL-2003, un punto de referencia estándar para NER
- Implementa una tokenización sofisticada con alineación apropiada de etiquetas
- Maneja apropiadamente los tokens especiales y la tokenización de subpalabras
Configuración del Entrenamiento
- Implementa argumentos completos de entrenamiento incluyendo:
  - Programación de tasa de aprendizaje
  - Estrategia de evaluación
  - Configuración de registro
  - Puntos de control del modelo
- Utiliza un recopilador de datos para el procesamiento por lotes adecuado de secuencias de longitud variable
Métricas y Evaluación
- Implementa cálculo personalizado de métricas usando seqeval
- Realiza seguimiento tanto de la precisión como de la puntuación F1
- Maneja adecuadamente los tokens especiales en la evaluación
Predicción y Salida
- Incluye una demostración del uso del modelo con texto de ejemplo
- Implementa formato de salida legible para las predicciones
- Maneja la agregación de entidades que abarcan múltiples tokens
Manejo de Errores y Registro
- Implementa registro apropiado a lo largo del pipeline
- Incluye manejo de errores para operaciones críticas
- Proporciona actualizaciones informativas del progreso durante el entrenamiento

Salida Esperada:

Aquí está cómo se vería la salida esperada al ejecutar el modelo NER en el texto de prueba "Apple CEO Tim Cook announced new products in California":

Test Prediction:
Text: Apple CEO Tim Cook announced new products in California.

Predicted Entities:
ORG: Apple
PER: Tim Cook
LOC: California

La salida muestra las entidades nombradas identificadas con sus tipos correspondientes:

"Apple" se identifica como una organización (ORG)
"Tim Cook" se identifica como una persona (PER)
"California" se identifica como una ubicación (LOC)

Este formato coincide con la estructura de salida del código que procesa los tokens e imprime las entidades junto con sus tipos.

6.2.3 Uso del Modelo Ajustado

Las predicciones del modelo pueden ser post-procesadas para combinar tokens en menciones completas de entidades y filtrar predicciones de baja confianza para asegurar resultados confiables.

Ejemplo de Código: Predicción con Modelo Ajustado

# Import required libraries
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

def predict_entities(text, model_path="./final_model"):
    """
    Predict named entities in the given text using a fine-tuned model
    
    Args:
        text (str): Input text for entity recognition
        model_path (str): Path to the fine-tuned model
        
    Returns:
        list: List of tuples containing (entity_text, entity_type)
    """
    # Load model and tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForTokenClassification.from_pretrained(model_path)
    
    # Put model in evaluation mode
    model.eval()
    
    # Tokenize and prepare input
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    
    # Get predictions
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
    
    # Convert predictions to entity labels
    label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Extract entities
    entities = []
    current_entity = None
    current_text = []
    
    for token, pred_idx in zip(tokens, predictions[0]):
        if pred_idx != -100:  # Ignore special tokens
            label = label_names[pred_idx]
            
            if label != "O":
                if label.startswith("B-"):
                    # Save previous entity if exists
                    if current_entity:
                        entities.append((" ".join(current_text), current_entity))
                    # Start new entity
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    entities.append((" ".join(current_text), current_entity))
                    current_entity = None
                    current_text = []
    
    return entities

# Example usage
if __name__ == "__main__":
    # Test text
    text = "Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017."
    
    # Get predictions
    entities = predict_entities(text)
    
    # Print results in a formatted way
    print("\nInput Text:", text)
    print("\nDetected Entities:")
    for entity_text, entity_type in entities:
        print(f"{entity_type}: {entity_text}")

Desglose del Código:

Estructura de la Función
- Implementa una función predict_entities() autocontenida para fácil reutilización
- Incluye documentación apropiada con docstring
- Maneja la carga del modelo y predicción de manera limpia y organizada
Manejo del Modelo
- Carga el modelo ajustado y el tokenizador desde una ruta especificada
- Establece el modelo en modo de evaluación para desactivar dropout y otras características de entrenamiento
- Utiliza torch.no_grad() para una inferencia más eficiente
Extracción de Entidades
- Implementa lógica sofisticada de extracción de entidades
- Maneja adecuadamente las etiquetas B-(Inicio) e I-(Interior) para entidades de múltiples tokens
- Filtra tokens especiales y combina subpalabras en entidades completas
Formateo de Salida
- Devuelve una lista estructurada de tuplas de entidades
- Proporciona una salida formateada clara para fácil interpretación
- Incluye ejemplo de uso con caso de prueba realista

Salida Esperada:

Input Text: Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017.

Detected Entities:
ORG: Amazon
PER: Jeff Bezos
LOC: Seattle
ORG: Whole Foods

6.2.4 Aplicaciones del NER

1. Extracción de Información

Extraer y clasificar entidades de documentos estructurados y no estructurados en diversos formatos y contextos. Esta potente capacidad permite:

Gestión de Eventos: Identificar y extraer automáticamente fechas, horas y ubicaciones de correos electrónicos, calendarios y documentos para agilizar la programación y coordinación de eventos.
Procesamiento de Información de Contacto: Extraer eficientemente nombres, títulos, números de teléfono y direcciones de correo electrónico de tarjetas de presentación, correos electrónicos y documentos para la gestión automatizada de bases de datos de contactos.
Análisis Geográfico: Detectar y categorizar información basada en ubicaciones, incluyendo direcciones, ciudades, regiones y países para permitir el análisis espacial y la cartografía.

En dominios específicos, el NER proporciona valor especializado:

Análisis de Documentos Legales: Identificar sistemáticamente las partes involucradas en casos, fechas importantes, jurisdicciones, citas de casos y terminología legal. Esto ayuda en la revisión de documentos, preparación de casos e investigación legal.
Procesamiento de Artículos de Noticias: Rastrear y analizar exhaustivamente personas (incluyendo sus roles y títulos), organizaciones (tanto mencionadas como involucradas), ubicaciones de eventos e información temporal para permitir el monitoreo de noticias y análisis de tendencias.
Investigación Académica: Extraer y categorizar citas, nombres de autores, metodologías de investigación, conjuntos de datos utilizados, hallazgos clave y terminología técnica. Esto facilita la revisión de literatura, meta-análisis y seguimiento del impacto de la investigación.

Ejemplo de Código: Sistema de Extracción de Información

import spacy
from transformers import pipeline
from typing import List, Dict, Tuple

class InformationExtractor:
    def __init__(self):
        # Load SpaCy model for basic NLP tasks
        self.nlp = spacy.load("en_core_web_sm")
        # Initialize transformer pipeline for NER
        self.ner_pipeline = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english")
        
    def extract_information(self, text: str) -> Dict:
        """
        Extract various types of information from text including entities,
        dates, and key phrases.
        """
        # Process text with SpaCy
        doc = self.nlp(text)
        
        # Extract information using transformers
        ner_results = self.ner_pipeline(text)
        
        # Combine and structure results
        extracted_info = {
            'entities': self._process_entities(ner_results),
            'dates': self._extract_dates(doc),
            'contact_info': self._extract_contact_info(doc),
            'key_phrases': self._extract_key_phrases(doc)
        }
        
        return extracted_info
    
    def _process_entities(self, ner_results: List) -> Dict[str, List[str]]:
        """Process and categorize named entities"""
        entities = {
            'PERSON': [], 'ORG': [], 'LOC': [], 'MISC': []
        }
        
        current_entity = {'text': [], 'type': None}
        
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    entity_type = current_entity['type']
                    entity_text = ' '.join(current_entity['text'])
                    entities[entity_type].append(entity_text)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
                
        return entities
    
    def _extract_dates(self, doc) -> List[str]:
        """Extract date mentions from text"""
        return [ent.text for ent in doc.ents if ent.label_ == 'DATE']
    
    def _extract_contact_info(self, doc) -> Dict[str, List[str]]:
        """Extract contact information (emails, phones, etc.)"""
        contact_info = {
            'emails': [],
            'phones': [],
            'addresses': []
        }
        
        email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
        phone_pattern = r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b'
        
        # Extract using patterns and NER
        for ent in doc.ents:
            if ent.label_ == 'GPE':
                contact_info['addresses'].append(ent.text)
                
        # Add regex matching for emails and phones
        contact_info['emails'] = [token.text for token in doc 
                                if token.like_email]
        
        return contact_info
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases based on dependency parsing"""
        key_phrases = []
        
        for chunk in doc.noun_chunks:
            if chunk.root.dep_ in ['nsubj', 'dobj']:
                key_phrases.append(chunk.text)
                
        return key_phrases

# Example usage
if __name__ == "__main__":
    extractor = InformationExtractor()
    
    sample_text = """
    John Smith, CEO of Tech Solutions Inc., will be speaking at our conference 
    on March 15, 2025. Contact him at john.smith@techsolutions.com or 
    call 555-123-4567. The event will be held at 123 Innovation Drive, 
    Silicon Valley, CA.
    """
    
    results = extractor.extract_information(sample_text)
    
    # Print results in a formatted way
    print("\nExtracted Information:")
    print("\nEntities:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}: {', '.join(entities)}")
    
    print("\nDates:", ', '.join(results['dates']))
    print("\nContact Information:")
    for info_type, info in results['contact_info'].items():
        print(f"{info_type}: {', '.join(info)}")
    
    print("\nKey Phrases:", ', '.join(results['key_phrases']))

Desglose y Explicación del Código:

Estructura de la Clase
- Implementa una clase InformationExtractor integral que combina múltiples herramientas de PLN
- Utiliza tanto SpaCy como Transformers para un reconocimiento de entidades robusto
- Organiza la lógica de extracción en métodos separados para facilitar el mantenimiento
Componentes de Extracción de Información
- Reconocimiento de entidades nombradas utilizando modelos transformer de última generación
- Extracción de fechas utilizando el reconocimiento de entidades de SpaCy
- Extracción de información de contacto utilizando tanto coincidencia de patrones como REN
- Extracción de frases clave utilizando análisis de dependencias
Lógica de Procesamiento
- Maneja la continuidad de entidades con etiquetas B-(Inicio) e I-(Interior)
- Implementa análisis de texto sofisticado para varios tipos de información
- Combina múltiples técnicas de extracción para resultados robustos
Organización de Salida
- Devuelve un diccionario estructurado con información categorizada
- Separa diferentes tipos de información extraída
- Proporciona una salida limpia y formateada para fácil interpretación

Salida Esperada:

Extracted Information:

Entities:
PERSON: John Smith
ORG: Tech Solutions Inc.
LOC: Silicon Valley, CA

Dates: March 15, 2025

Contact Information:
emails: john.smith@techsolutions.com
phones: 555-123-4567
addresses: Silicon Valley, CA

Key Phrases: John Smith, CEO of Tech Solutions Inc., our conference

2. Salud

Organizar y recuperar mejor la información del paciente
Mejorar la coordinación de la atención entre proveedores
Apoyar la toma de decisiones clínicas basada en evidencia
Mejorar el seguimiento de métricas de calidad
Agilizar los procesos de seguros y facturación

Ejemplo de Código: Sistema de Reconocimiento de Entidades Médicas

from transformers import pipeline
from typing import Dict, List, Tuple
import re
import spacy

class MedicalEntityExtractor:
    def __init__(self):
        # Load specialized medical NER model
        self.med_ner = pipeline("ner", model="alvaroalon2/biobert_diseases_ner")
        # Load SpaCy model for additional medical entities
        self.nlp = spacy.load("en_core_sci_md")
        
    def process_medical_text(self, text: str) -> Dict[str, List[str]]:
        """
        Extract medical entities from clinical text.
        
        Args:
            text (str): Clinical text to analyze
            
        Returns:
            Dict containing categorized medical entities
        """
        # Initialize categories
        medical_entities = {
            'conditions': [],
            'medications': [],
            'procedures': [],
            'lab_tests': [],
            'vitals': [],
            'anatomical_sites': []
        }
        
        # Process with transformer pipeline
        ner_results = self.med_ner(text)
        
        # Process with SpaCy
        doc = self.nlp(text)
        
        # Extract entities from transformer results
        current_entity = {'text': [], 'type': None}
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    self._add_entity(medical_entities, current_entity)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
        
        # Add final entity if exists
        if current_entity['text']:
            self._add_entity(medical_entities, current_entity)
        
        # Extract measurements and vitals
        self._extract_measurements(text, medical_entities)
        
        # Extract medications using regex patterns
        self._extract_medications(text, medical_entities)
        
        return medical_entities
    
    def _add_entity(self, medical_entities: Dict, entity: Dict):
        """Add extracted entity to appropriate category"""
        entity_text = ' '.join(entity['text'])
        entity_type = entity['type']
        
        if entity_type == 'DISEASE':
            medical_entities['conditions'].append(entity_text)
        elif entity_type == 'PROCEDURE':
            medical_entities['procedures'].append(entity_text)
        elif entity_type == 'TEST':
            medical_entities['lab_tests'].append(entity_text)
            
    def _extract_measurements(self, text: str, medical_entities: Dict):
        """Extract vital signs and measurements"""
        # Patterns for common vital signs
        vital_patterns = {
            'blood_pressure': r'\d{2,3}/\d{2,3}',
            'temperature': r'\d{2}\.?\d*°[CF]',
            'pulse': r'HR:?\s*\d{2,3}',
            'oxygen': r'O2\s*sat:?\s*\d{2,3}%'
        }
        
        for vital_type, pattern in vital_patterns.items():
            matches = re.finditer(pattern, text)
            medical_entities['vitals'].extend(
                [match.group() for match in matches]
            )
            
    def _extract_medications(self, text: str, medical_entities: Dict):
        """Extract medication information"""
        # Pattern for medication with optional dosage
        med_pattern = r'\b\w+\s*\d*\s*mg/\w+|\b\w+\s*\d*\s*mg\b'
        matches = re.finditer(med_pattern, text)
        medical_entities['medications'].extend(
            [match.group() for match in matches]
        )

# Example usage
if __name__ == "__main__":
    extractor = MedicalEntityExtractor()
    
    sample_text = """
    Patient presents with acute bronchitis and hypertension. 
    BP: 140/90, Temperature: 38.5°C, HR: 88, O2 sat: 97%
    Currently taking Lisinopril 10mg daily and Ventolin 2.5mg/mL PRN.
    Lab tests ordered: CBC, CMP, and chest X-ray.
    """
    
    results = extractor.process_medical_text(sample_text)
    
    print("\nExtracted Medical Entities:")
    for category, entities in results.items():
        if entities:
            print(f"\n{category.title()}:")
            for entity in entities:
                print(f"- {entity}")

Desglose del Código:

Arquitectura de Clase
- Implementa una clase MedicalEntityExtractor especializada que combina múltiples enfoques de PLN
- Utiliza el modelo BioBERT ajustado para el reconocimiento de entidades médicas
- Incorpora el modelo científico de SpaCy para la detección adicional de entidades
Procesamiento de Entidades
- Maneja varios tipos de entidades médicas incluyendo condiciones, medicamentos y procedimientos
- Implementa coincidencia de patrones sofisticada para signos vitales y mediciones
- Utiliza patrones regex para la extracción de medicamentos con información de dosificación
Características Avanzadas
- Combina enfoques basados en transformers y reglas para una cobertura integral
- Maneja terminología médica compleja y abreviaturas
- Procesa texto clínico estructurado y no estructurado

Salida Esperada:

Extracted Medical Entities:

Conditions:
- acute bronchitis
- hypertension

Vitals:
- 140/90
- 38.5°C
- HR: 88
- O2 sat: 97%

Medications:
- Lisinopril 10mg
- Ventolin 2.5mg/mL

Lab Tests:
- CBC
- CMP
- chest X-ray

3. Análisis de Comentarios de Clientes

Además, las capacidades avanzadas de reconocimiento de entidades del sistema se extienden a la inteligencia competitiva mediante:

El reconocimiento de nombres de competidores y productos en comparaciones de clientes
El seguimiento de información de precios y ofertas promocionales en los mercados
El análisis de indicadores de calidad de servicio a través de narrativas de experiencia del cliente
La identificación de tendencias emergentes del mercado y preferencias de los clientes
El monitoreo del panorama competitivo para nuevos lanzamientos o características de productos

Ejemplo de Código: Sistema de Análisis de Comentarios de Clientes

from transformers import pipeline
from typing import Dict, List, Tuple
import pandas as pd
import spacy
from collections import defaultdict

class CustomerFeedbackAnalyzer:
    def __init__(self):
        # Initialize sentiment analysis pipeline
        self.sentiment_analyzer = pipeline("sentiment-analysis")
        # Initialize NER pipeline for product/feature detection
        self.ner = spacy.load("en_core_web_sm")
        # Initialize aspect-based sentiment classifier
        self.aspect_classifier = pipeline("text-classification", 
                                       model="nlptown/bert-base-multilingual-uncased-sentiment")
    
    def analyze_feedback(self, feedback: str) -> Dict:
        """
        Analyze customer feedback for sentiment, entities, and aspects.
        
        Args:
            feedback (str): Customer feedback text
            
        Returns:
            Dict containing analysis results
        """
        results = {
            'overall_sentiment': None,
            'entities': defaultdict(list),
            'aspects': [],
            'key_phrases': []
        }
        
        # Overall sentiment analysis
        sentiment = self.sentiment_analyzer(feedback)[0]
        results['overall_sentiment'] = {
            'label': sentiment['label'],
            'score': sentiment['score']
        }
        
        # Entity recognition
        doc = self.ner(feedback)
        for ent in doc.ents:
            results['entities'][ent.label_].append({
                'text': ent.text,
                'start': ent.start_char,
                'end': ent.end_char
            })
        
        # Aspect-based sentiment analysis
        aspects = self._extract_aspects(doc)
        for aspect in aspects:
            aspect_text = aspect['text']
            aspect_context = self._get_aspect_context(feedback, aspect)
            aspect_sentiment = self.aspect_classifier(aspect_context)[0]
            
            results['aspects'].append({
                'aspect': aspect_text,
                'sentiment': aspect_sentiment['label'],
                'confidence': aspect_sentiment['score'],
                'context': aspect_context
            })
        
        # Extract key phrases
        results['key_phrases'] = self._extract_key_phrases(doc)
        
        return results
    
    def _extract_aspects(self, doc) -> List[Dict]:
        """Extract product aspects/features from text"""
        aspects = []
        
        # Pattern matching for noun phrases
        for chunk in doc.noun_chunks:
            if self._is_valid_aspect(chunk):
                aspects.append({
                    'text': chunk.text,
                    'start': chunk.start_char,
                    'end': chunk.end_char
                })
        
        return aspects
    
    def _is_valid_aspect(self, chunk) -> bool:
        """Validate if noun chunk is a valid product aspect"""
        invalid_words = {'i', 'you', 'he', 'she', 'it', 'we', 'they'}
        return (
            chunk.root.pos_ == 'NOUN' and
            chunk.root.text.lower() not in invalid_words
        )
    
    def _get_aspect_context(self, text: str, aspect: Dict, window: int = 50) -> str:
        """Extract context around an aspect for sentiment analysis"""
        start = max(0, aspect['start'] - window)
        end = min(len(text), aspect['end'] + window)
        return text[start:end]
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases from feedback"""
        key_phrases = []
        
        for sent in doc.sents:
            # Extract subject-verb-object patterns
            for token in sent:
                if token.dep_ == 'nsubj' and token.head.pos_ == 'VERB':
                    phrase = self._build_phrase(token)
                    if phrase:
                        key_phrases.append(phrase)
        
        return key_phrases
    
    def _build_phrase(self, token) -> str:
        """Build meaningful phrase from dependency parse"""
        words = []
        
        # Get subject
        words.extend(token.subtree)
        
        # Sort words by their position in text
        words = sorted(words, key=lambda x: x.i)
        
        return ' '.join([word.text for word in words])

# Example usage
if __name__ == "__main__":
    analyzer = CustomerFeedbackAnalyzer()
    
    feedback = """
    The new iPhone 13's battery life is impressive, but the camera quality could be better.
    Face ID works flawlessly in low light conditions. However, the price point is quite high
    compared to similar Android phones.
    """
    
    results = analyzer.analyze_feedback(feedback)
    
    print("Analysis Results:")
    print("\nOverall Sentiment:", results['overall_sentiment']['label'])
    print("\nEntities Found:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}:", [e['text'] for e in entities])
    
    print("\nAspect-Based Sentiment:")
    for aspect in results['aspects']:
        print(f"- {aspect['aspect']}: {aspect['sentiment']}")
    
    print("\nKey Phrases:")
    for phrase in results['key_phrases']:
        print(f"- {phrase}")

Desglose y Explicación del Código:

Arquitectura de Clase
- Implementa CustomerFeedbackAnalyzer combinando múltiples técnicas de PLN
- Utiliza modelos basados en transformers para análisis y clasificación de sentimientos
- Incorpora SpaCy para el reconocimiento de entidades y análisis de dependencias
Componentes de Análisis
- Análisis general de sentimientos utilizando modelos transformer pre-entrenados
- Reconocimiento de entidades para identificación de productos y características
- Análisis de sentimientos basado en aspectos para características específicas de productos
- Extracción de frases clave mediante análisis de dependencias
Características Avanzadas
- Análisis de ventana contextual para sentimientos precisos de aspectos
- Construcción sofisticada de frases a partir de árboles de dependencias
- Categorización flexible de entidades y puntuación de sentimientos

Salida Esperada:

Analysis Results:

Overall Sentiment: POSITIVE

Entities Found:
PRODUCT: ['iPhone 13', 'Android']
ORG: ['Face ID']

Aspect-Based Sentiment:
- battery life: POSITIVE
- camera quality: NEGATIVE
- Face ID: POSITIVE
- price point: NEGATIVE

Key Phrases:
- battery life is impressive
- camera quality could be better
- Face ID works flawlessly
- price point is quite high

4. Motores de Búsqueda

Esta tecnología también permite características sofisticadas como:

Expansión de consultas: Inclusión automática de términos relacionados y sinónimos
Búsqueda semántica: Comprensión del significado detrás de las consultas en lugar de solo emparejar palabras clave
Resultados personalizados: Adaptación de los resultados de búsqueda basados en las preferencias del usuario e interacciones previas con entidades
Búsquedas relacionadas: Sugerencia de consultas relevantes basadas en relaciones entre entidades y patrones comunes de búsqueda

Ejemplo de Código: Motor de Búsqueda Consciente de Entidades

from transformers import AutoTokenizer, AutoModel
from typing import List, Dict, Tuple
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import spacy

class EntityAwareSearchEngine:
    def __init__(self):
        # Initialize BERT model for semantic understanding
        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
        self.model = AutoModel.from_pretrained('bert-base-uncased')
        # Load SpaCy for entity recognition
        self.nlp = spacy.load('en_core_web_sm')
        # Initialize document store
        self.document_embeddings = {}
        self.document_entities = {}
    
    def index_document(self, doc_id: str, content: str):
        """
        Index a document with its embeddings and entities
        """
        # Generate document embedding
        inputs = self.tokenizer(content, return_tensors='pt', 
                              truncation=True, max_length=512)
        with torch.no_grad():
            outputs = self.model(**inputs)
            embedding = outputs.last_hidden_state.mean(dim=1)
        
        # Store document embedding
        self.document_embeddings[doc_id] = embedding
        
        # Extract and store entities
        doc = self.nlp(content)
        self.document_entities[doc_id] = {
            'entities': [(ent.text, ent.label_) for ent in doc.ents],
            'content': content
        }
    
    def search(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        Perform entity-aware search
        """
        # Extract entities from query
        query_doc = self.nlp(query)
        query_entities = [(ent.text, ent.label_) for ent in query_doc.ents]
        
        # Generate query embedding
        query_inputs = self.tokenizer(query, return_tensors='pt',
                                    truncation=True, max_length=512)
        with torch.no_grad():
            query_outputs = self.model(**query_inputs)
            query_embedding = query_outputs.last_hidden_state.mean(dim=1)
        
        results = []
        for doc_id, doc_embedding in self.document_embeddings.items():
            # Calculate semantic similarity
            similarity = cosine_similarity(
                query_embedding.numpy(),
                doc_embedding.numpy()
            )[0][0]
            
            # Calculate entity match score
            entity_score = self._calculate_entity_score(
                query_entities,
                self.document_entities[doc_id]['entities']
            )
            
            # Combine scores
            final_score = 0.7 * similarity + 0.3 * entity_score
            
            results.append({
                'doc_id': doc_id,
                'score': final_score,
                'content': self.document_entities[doc_id]['content'][:200] + '...',
                'matched_entities': self._get_matching_entities(
                    query_entities,
                    self.document_entities[doc_id]['entities']
                )
            })
        
        # Sort by score and return top_k results
        results.sort(key=lambda x: x['score'], reverse=True)
        return results[:top_k]
    
    def _calculate_entity_score(self, query_entities: List[Tuple],
                              doc_entities: List[Tuple]) -> float:
        """
        Calculate entity matching score between query and document
        """
        if not query_entities:
            return 0.0
        
        matches = 0
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches += 1
                    break
        
        return matches / len(query_entities)
    
    def _get_matching_entities(self, query_entities: List[Tuple],
                             doc_entities: List[Tuple]) -> List[Dict]:
        """
        Get list of matching entities between query and document
        """
        matches = []
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches.append({
                        'text': d_ent[0],
                        'type': d_ent[1]
                    })
        return matches

# Example usage
if __name__ == "__main__":
    search_engine = EntityAwareSearchEngine()
    
    # Index sample documents
    documents = {
        "doc1": "Apple CEO Tim Cook announced new iPhone models at the event in Cupertino.",
        "doc2": "The apple pie recipe requires fresh apples from Washington state.",
        "doc3": "Microsoft and Apple are leading tech companies in the US market."
    }
    
    for doc_id, content in documents.items():
        search_engine.index_document(doc_id, content)
    
    # Perform search
    results = search_engine.search("What did Tim Cook announce?")
    
    print("Search Results:")
    for result in results:
        print(f"\nDocument {result['doc_id']} (Score: {result['score']:.2f})")
        print(f"Content: {result['content']}")
        print("Matched Entities:", result['matched_entities'])

Desglose y Explicación del Código:

Componentes Principales
- Combina búsqueda semántica basada en BERT con reconocimiento de entidades
- Utiliza SpaCy para la extracción y clasificación eficiente de entidades
- Implementa un sistema híbrido de puntuación que combina coincidencias semánticas y de entidades
Características Principales
- Indexación de documentos con información de embeddings y entidades
- Búsqueda consciente de entidades que considera tanto la similitud semántica como las coincidencias de entidades
- Sistema flexible de puntuación con pesos configurables para diferentes factores
Capacidades Avanzadas
- Maneja la desambiguación de entidades a través del contexto
- Proporciona resultados de búsqueda detallados con entidades coincidentes
- Admite la clasificación de documentos basada en múltiples factores de relevancia

Salida Esperada:

Search Results:

Document doc1 (Score: 0.85)
Content: Apple CEO Tim Cook announced new iPhone models at the event in Cupertino...
Matched Entities: [
    {'text': 'Tim Cook', 'type': 'PERSON'},
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc3 (Score: 0.45)
Content: Microsoft and Apple are leading tech companies in the US market...
Matched Entities: [
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc2 (Score: 0.15)
Content: The apple pie recipe requires fresh apples from Washington state...
Matched Entities: []

6.2.5 Desafíos en el NER

Ambigüedad

Ambigüedad del Tipo de Entidad: Ejemplos comunes incluyen:

"Apple": Podría representar la empresa tecnológica (ORGANIZACIÓN), la fruta (ALIMENTO), o Apple Records (ORGANIZACIÓN)
"Washington": Puede referirse al estado de EE. UU. (UBICACIÓN), la ciudad capital (UBICACIÓN), o George Washington (PERSONA)
"Mercury": Podría indicar el planeta (CUERPO_CELESTE), el elemento químico (SUSTANCIA), o la marca de automóviles (ORGANIZACIÓN)

Esta ambigüedad se vuelve particularmente desafiante para los sistemas NER porque la clasificación precisa requiere:

Análisis Contextual: Examinar las palabras y frases circundantes para determinar el tipo de entidad apropiado
Conocimiento del Dominio: Comprender el tema o campo más amplio del texto
Comprensión Semántica: Captar el significado general y la intención del pasaje
Reconocimiento de Relaciones: Identificar cómo la entidad se relaciona con otras entidades mencionadas

Los sistemas NER deben emplear algoritmos sofisticados y pistas contextuales para resolver estas ambigüedades, utilizando frecuentemente:

Contexto a nivel de documento
Datos de entrenamiento específicos del sector
Resolución de correferencias
Vinculación de entidades con bases de conocimiento

Variaciones Específicas del Dominio

Tipos de Entidades Específicas del Dominio:

Dominio Legal: Los documentos contienen entidades especializadas como citas de casos (por ejemplo, "Brown v. Board of Education"), estatutos (por ejemplo, "Sección 230 de la Ley de Decencia en las Comunicaciones"), principios legales (por ejemplo, "doctrina del uso justo"), y referencias jurisdiccionales.
Dominio Biomédico: Los textos frecuentemente hacen referencia a secuencias genéticas (por ejemplo, "BRCA1"), clasificaciones de enfermedades (por ejemplo, "Diabetes Tipo 2"), nombres de medicamentos (por ejemplo, "metilprednisolona"), y términos anatómicos.
Dominio Financiero: Las entidades incluyen símbolos bursátiles, índices de mercado, instrumentos financieros y referencias regulatorias.

Requisitos de Entrenamiento:

Cada dominio necesita conjuntos de datos de entrenamiento cuidadosamente curados que capturen el vocabulario único y las relaciones entre entidades dentro de ese campo.
Pueden requerirse arquitecturas de modelo personalizadas para manejar patrones y relaciones específicos del dominio de manera efectiva.
A menudo se necesitan expertos del dominio para crear pautas precisas de anotación y validar datos de entrenamiento.

Desafíos Entre Dominios:

Los términos pueden tener significados radicalmente diferentes entre dominios:
- "Java" → Lenguaje de programación (Tecnología)
- "Java" → Ubicación geográfica (Viajes/Geografía)
- "Java" → Variedad de café (Alimentos/Bebidas)
El contexto se vuelve crucial para la clasificación precisa de entidades
El aprendizaje por transferencia entre dominios puede ser limitado debido a estas diferencias fundamentales en terminología y patrones de uso.

Idiomas con Recursos Limitados

Escasez de Datos:

Conjuntos de datos anotados limitados para entrenamiento
- Ejemplos insuficientes del mundo real para la validación del modelo
- Falta de referencias estandarizadas para la evaluación del rendimiento

Complejidad Lingüística:

Estructuras gramaticales únicas que difieren de los idiomas con muchos recursos
- Sistemas morfológicos complejos que requieren procesamiento especializado
- Sistemas de escritura que pueden no seguir reglas convencionales de tokenización

Limitaciones Técnicas:

Pocos o ningún modelo pre-entrenado disponible
- Recursos computacionales limitados dedicados a estos idiomas
- Falta de categorías de entidades estandarizadas que reflejen el contexto cultural

Este desafío se extiende más allá de los idiomas raros para incluir:

Dialectos regionales con vocabulario y gramática únicos
Vocabularios técnicos en campos especializados
Idiomas emergentes y comunicaciones digitales

Los enfoques tradicionales de NER, que fueron desarrollados principalmente para idiomas con muchos recursos como el inglés, a menudo tienen dificultades con estos idiomas debido a:

Suposiciones sobre el orden de las palabras y la sintaxis que pueden no aplicar
Dependencia de datos de entrenamiento a gran escala que no están disponibles
Comprensión limitada de matices culturales y contextuales

6.2.6 Puntos Clave

El Reconocimiento de Entidades Nombradas (NER) es una tarea crucial de PLN que identifica y clasifica automáticamente entidades nombradas dentro del texto. Sirve como un componente fundamental para muchas aplicaciones avanzadas de procesamiento del lenguaje natural al identificar elementos específicos como:
- Personas y nombres personales
- Organizaciones e instituciones
- Ubicaciones geográficas y lugares
- Fechas, horas y expresiones temporales
- Cantidades, medidas y valores monetarios
Las arquitecturas Transformer, con BERT a la cabeza, han avanzado significativamente las capacidades del NER a través de varias innovaciones clave:
- Mecanismos avanzados de atención que capturan dependencias de largo alcance en el texto
- Comprensión contextual que ayuda a desambiguar entidades basándose en las palabras circundantes
- Pre-entrenamiento en conjuntos de datos masivos que construye una comprensión robusta del lenguaje
- Capacidades de ajuste fino que permiten la adaptación a dominios específicos
- Tokenización de subpalabras que maneja efectivamente palabras fuera del vocabulario
Las aplicaciones prácticas del NER abarcan una amplia gama de industrias y casos de uso:
- Salud: Extracción de entidades médicas de notas clínicas y artículos de investigación
- Legal: Identificación de partes, citas y jurisdicciones en documentos legales
- Finanzas: Reconocimiento de nombres de empresas, instrumentos financieros y transacciones
- Investigación: Automatización de revisión de literatura y extracción de conocimiento
- Medios: Seguimiento de menciones de personas, organizaciones y eventos
Si bien la tecnología NER ha logrado avances significativos, continúa enfrentando desafíos importantes:
- Ambigüedad contextual donde la misma palabra puede representar diferentes tipos de entidades
- Terminología específica del dominio que requiere datos de entrenamiento especializados
- Manejo de entidades emergentes y casos raros
- Dificultades de adaptación entre dominios y entre idiomas
- Requisitos de procesamiento en tiempo real para aplicaciones a gran escala

6.2 Reconocimiento de Entidades Nombradas (REN)

Nombres de personas (como políticos, autores o figuras históricas)
Organizaciones (empresas, instituciones, agencias gubernamentales)
Ubicaciones (países, ciudades, puntos de referencia)
Expresiones temporales (fechas, horas, duraciones)
Cantidades (valores monetarios, porcentajes, mediciones)
Nombres de productos (marcas, modelos, servicios)

Para ilustrar cómo funciona el REN en la práctica, considere esta oración de ejemplo:

"Apple Inc. lanzó el iPhone en California el 9 de enero de 2007,"

Al procesar esta oración, un sistema REN identifica:

"Apple Inc." como una Organización - distinguiéndola de la fruta gracias a la comprensión contextual
"California" como una Ubicación - reconociéndola como una entidad geográfica
"9 de enero de 2007" como una Fecha - analizando y estandarizando la expresión temporal

El REN sirve como un componente crucial en varias aplicaciones del mundo real:

Extracción de Información: Obtención automática de datos estructurados a partir de documentos de texto no estructurados
Sistemas de Respuesta a Preguntas: Comprensión de entidades mencionadas en preguntas para proporcionar respuestas precisas
Procesamiento de Documentos: Organización y categorización de documentos basados en las entidades mencionadas
Recomendación de Contenido: Identificación de contenido relevante basado en relaciones entre entidades
Monitoreo de Cumplimiento: Detección y seguimiento de menciones de entidades reguladas o información sensible

6.2.1 Cómo los Transformers Mejoran el REN

Los sistemas basados en reglas requerían un extenso esfuerzo manual para crear y mantener las reglas
Los modelos estadísticos necesitaban una cuidadosa ingeniería de características para cada nuevo dominio
Ambos enfoques tenían dificultades con la ambigüedad contextual
El rendimiento se degradaba significativamente cuando se aplicaban a nuevos dominios o estilos de texto

La introducción de los Transformers, particularmente modelos como BERT, marcó un cambio revolucionario en la tecnología REN. Estos modelos trajeron varias mejoras revolucionarias:

1. Captura del Contexto

Consideremos estos ejemplos contrastantes:

En "Apple publicó nuevas directrices", el modelo reconoce "Apple" como una empresa porque considera el verbo "publicó" y el objeto "directrices", que típicamente se asocian con acciones corporativas.
En "Los manzanos dan fruta", el modelo identifica "manzano" como un árbol frutal porque analiza las palabras "dan" y "fruta", que proporcionan contexto botánico.

2. Comprensión Bidireccional

Los Transformers revolucionaron este enfoque implementando un análisis verdaderamente bidireccional. A diferencia de sus predecesores, procesan todo el texto simultáneamente, permitiéndoles:

Considerar tanto las palabras anteriores como las posteriores al mismo tiempo
Ponderar la importancia de las palabras independientemente de su posición en la oración
Mantener la comprensión contextual a través de largas distancias en el texto
Construir una comprensión integral de las relaciones entre todas las palabras

Esta capacidad bidireccional es particularmente poderosa para el reconocimiento de entidades. Consideremos estos ejemplos:

3. Aprendizaje por Transferencia

Quizás la ventaja más significativa de los Transformers en REN es su capacidad para aprovechar el aprendizaje por transferencia. Esta poderosa capacidad funciona en dos etapas clave:

Este enfoque de dos etapas aporta varios beneficios cruciales:

Reducción dramática en tiempo de entrenamiento y recursos computacionales comparado con entrenar modelos desde cero
Mayor precisión incluso con datos de entrenamiento limitados específicos del dominio
Mayor flexibilidad en la adaptación a nuevos dominios o tipos de entidades
Mejor generalización a través de diferentes estilos de texto y contextos

Por ejemplo, un modelo BERT pre-entrenado en texto general puede ser rápidamente adaptado para reconocer entidades especializadas en varios campos:

Dominio médico: nombres de enfermedades, medicamentos, procedimientos
Dominio legal: citas judiciales, términos legales, referencias jurisdiccionales
Dominio técnico: lenguajes de programación, componentes de software, especificaciones técnicas
Dominio financiero: nombres de empresas, instrumentos financieros, terminología de mercado

Implementación de REN con Transformers

Utilizaremos la biblioteca Hugging Face Transformers para implementar REN usando un modelo BERT pre-entrenado ajustado para clasificación de tokens.

Ejemplo de Código: Reconocimiento de Entidades Nombradas con BERT

from transformers import pipeline
import logging
from typing import List, Dict, Any
import sys

class NERProcessor:
    def __init__(self):
        try:
            # Initialize the NER pipeline
            self.ner_pipeline = pipeline("ner", grouped_entities=True)
            logging.info("NER pipeline initialized successfully")
        except Exception as e:
            logging.error(f"Failed to initialize NER pipeline: {str(e)}")
            sys.exit(1)

    def process_text(self, text: str) -> List[Dict[str, Any]]:
        """
        Process text and extract named entities
        Args:
            text: Input text to analyze
        Returns:
            List of detected entities with their details
        """
        try:
            results = self.ner_pipeline(text)
            return results
        except Exception as e:
            logging.error(f"Error processing text: {str(e)}")
            return []

    def display_results(self, results: List[Dict[str, Any]]) -> None:
        """
        Display NER results in a formatted way
        Args:
            results: List of detected entities
        """
        print("\nNamed Entities:")
        print("-" * 50)
        for entity in results:
            print(f"Entity: {entity['word']}")
            print(f"Type: {entity['entity_group']}")
            print(f"Confidence Score: {entity['score']:.4f}")
            print("-" * 50)

def main():
    # Configure logging
    logging.basicConfig(level=logging.INFO)
    
    # Initialize processor
    processor = NERProcessor()
    
    # Example texts
    texts = [
        "Barack Obama was born in Hawaii and served as the 44th President of the United States.",
        "Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022."
    ]
    
    # Process each text
    for i, text in enumerate(texts, 1):
        print(f"\nProcessing Text {i}:")
        print(f"Input: {text}")
        
        results = processor.process_text(text)
        processor.display_results(results)

if __name__ == "__main__":
    main()

Analicemos los componentes clave y las mejoras:

Estructura basada en clases: El código está organizado en una clase NERProcessor, haciéndolo más mantenible y reutilizable.
Manejo de errores: Bloques try-except integrales para manejar de manera elegante los posibles errores durante la inicialización del pipeline y el procesamiento de texto.
Sugerencias de tipo: Se agregaron sugerencias de tipo de Python para mejorar la documentación del código y el soporte del IDE.
Registro: Se implementó un registro apropiado en lugar de simples declaraciones print para mejor depuración y monitoreo.
Salida formateada: Se mejoró la visualización de resultados con formato claro y separación entre entidades.
Procesamiento de múltiples textos: Se agregó la capacidad de procesar múltiples ejemplos de texto en una sola ejecución.

Salida esperada:

Processing Text 1:
Input: Barack Obama was born in Hawaii and served as the 44th President of the United States.

Named Entities:
--------------------------------------------------
Entity: Barack Obama
Type: PER
Confidence Score: 0.9983
--------------------------------------------------
Entity: Hawaii
Type: LOC
Confidence Score: 0.9945
--------------------------------------------------
Entity: United States
Type: LOC
Confidence Score: 0.9967
--------------------------------------------------

Processing Text 2:
Input: Tesla CEO Elon Musk acquired Twitter for $44 billion in 2022.

Named Entities:
--------------------------------------------------
Entity: Tesla
Type: ORG
Confidence Score: 0.9956
--------------------------------------------------
Entity: Elon Musk
Type: PER
Confidence Score: 0.9978
--------------------------------------------------
Entity: Twitter
Type: ORG
Confidence Score: 0.9934
--------------------------------------------------
Entity: $44 billion
Type: MONEY
Confidence Score: 0.9912
--------------------------------------------------
Entity: 2022
Type: DATE
Confidence Score: 0.9889
--------------------------------------------------

6.2.2 Ajuste Fino de un Transformer para REN

Ejemplo de Código: Ajuste Fino de BERT

from transformers import (
    AutoTokenizer, 
    AutoModelForTokenClassification, 
    Trainer, 
    TrainingArguments,
    DataCollatorForTokenClassification
)
from datasets import load_dataset
import numpy as np
from seqeval.metrics import accuracy_score, f1_score
import logging
import torch

# Set up logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class NERTrainer:
    def __init__(self, model_name="bert-base-cased", num_labels=9):
        self.model_name = model_name
        self.num_labels = num_labels
        self.label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
        
        # Initialize model and tokenizer
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForTokenClassification.from_pretrained(
            model_name, 
            num_labels=num_labels
        )
        
    def prepare_dataset(self):
        """Load and prepare the CoNLL-2003 dataset"""
        logger.info("Loading dataset...")
        dataset = load_dataset("conll2003")
        
        # Tokenize and align labels
        tokenized_dataset = dataset.map(
            self._tokenize_and_align_labels,
            batched=True,
            remove_columns=dataset["train"].column_names
        )
        
        return tokenized_dataset
    
    def _tokenize_and_align_labels(self, examples):
        """Tokenize inputs and align labels with tokens"""
        tokenized_inputs = self.tokenizer(
            examples["tokens"],
            truncation=True,
            is_split_into_words=True,
            padding="max_length",
            max_length=128
        )
        
        labels = []
        for i, label in enumerate(examples["ner_tags"]):
            word_ids = tokenized_inputs.word_ids(batch_index=i)
            previous_word_idx = None
            label_ids = []
            
            for word_idx in word_ids:
                if word_idx is None:
                    label_ids.append(-100)
                elif word_idx != previous_word_idx:
                    label_ids.append(label[word_idx])
                else:
                    label_ids.append(-100)
                previous_word_idx = word_idx
                
            labels.append(label_ids)
            
        tokenized_inputs["labels"] = labels
        return tokenized_inputs
    
    def compute_metrics(self, eval_preds):
        """Compute evaluation metrics"""
        predictions, labels = eval_preds
        predictions = np.argmax(predictions, axis=2)
        
        # Remove ignored index (special tokens)
        true_predictions = [
            [self.label_names[p] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        true_labels = [
            [self.label_names[l] for (p, l) in zip(prediction, label) if l != -100]
            for prediction, label in zip(predictions, labels)
        ]
        
        return {
            'accuracy': accuracy_score(true_labels, true_predictions),
            'f1': f1_score(true_labels, true_predictions)
        }
    
    def train(self, batch_size=8, num_epochs=3, learning_rate=2e-5):
        """Train the model"""
        logger.info("Starting training preparation...")
        
        # Prepare dataset
        tokenized_dataset = self.prepare_dataset()
        
        # Define training arguments
        training_args = TrainingArguments(
            output_dir="./ner_results",
            evaluation_strategy="epoch",
            learning_rate=learning_rate,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            num_train_epochs=num_epochs,
            weight_decay=0.01,
            logging_dir='./logs',
            logging_steps=100,
            save_strategy="epoch",
            load_best_model_at_end=True,
            metric_for_best_model="f1"
        )
        
        # Initialize trainer
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=tokenized_dataset["train"],
            eval_dataset=tokenized_dataset["validation"],
            data_collator=DataCollatorForTokenClassification(self.tokenizer),
            compute_metrics=self.compute_metrics
        )
        
        logger.info("Starting training...")
        trainer.train()
        
        # Save the final model
        trainer.save_model("./final_model")
        logger.info("Training completed and model saved!")
        
        return trainer

def main():
    # Initialize trainer
    ner_trainer = NERTrainer()
    
    # Train model
    trainer = ner_trainer.train()
    
    # Example prediction
    test_text = "Apple CEO Tim Cook announced new products in California."
    inputs = ner_trainer.tokenizer(test_text, return_tensors="pt", truncation=True, padding=True)
    
    with torch.no_grad():
        outputs = ner_trainer.model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
        
    tokens = ner_trainer.tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Print results
    print("\nTest Prediction:")
    print("Text:", test_text)
    print("\nPredicted Entities:")
    current_entity = None
    current_text = []
    
    for token, pred in zip(tokens, predictions[0]):
        if pred != -100:  # Ignore special tokens
            label = ner_trainer.label_names[pred]
            if label != "O":
                if label.startswith("B-"):
                    if current_entity:
                        print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    print(f"{current_entity}: {' '.join(current_text)}")
                    current_entity = None
                    current_text = []

if __name__ == "__main__":
    main()

Desglose y Explicación del Código:

Estructura de Clase
- El código está organizado en una clase NERTrainer para mejor modularidad y reusabilidad
- Incluye la inicialización del modelo y tokenizador con parámetros configurables
- Separa las responsabilidades en métodos distintos para la preparación de datos, entrenamiento y predicción
Preparación del Conjunto de Datos
- Carga el conjunto de datos CoNLL-2003, un punto de referencia estándar para NER
- Implementa una tokenización sofisticada con alineación apropiada de etiquetas
- Maneja apropiadamente los tokens especiales y la tokenización de subpalabras
Configuración del Entrenamiento
- Implementa argumentos completos de entrenamiento incluyendo:
  - Programación de tasa de aprendizaje
  - Estrategia de evaluación
  - Configuración de registro
  - Puntos de control del modelo
- Utiliza un recopilador de datos para el procesamiento por lotes adecuado de secuencias de longitud variable
Métricas y Evaluación
- Implementa cálculo personalizado de métricas usando seqeval
- Realiza seguimiento tanto de la precisión como de la puntuación F1
- Maneja adecuadamente los tokens especiales en la evaluación
Predicción y Salida
- Incluye una demostración del uso del modelo con texto de ejemplo
- Implementa formato de salida legible para las predicciones
- Maneja la agregación de entidades que abarcan múltiples tokens
Manejo de Errores y Registro
- Implementa registro apropiado a lo largo del pipeline
- Incluye manejo de errores para operaciones críticas
- Proporciona actualizaciones informativas del progreso durante el entrenamiento

Salida Esperada:

Aquí está cómo se vería la salida esperada al ejecutar el modelo NER en el texto de prueba "Apple CEO Tim Cook announced new products in California":

Test Prediction:
Text: Apple CEO Tim Cook announced new products in California.

Predicted Entities:
ORG: Apple
PER: Tim Cook
LOC: California

La salida muestra las entidades nombradas identificadas con sus tipos correspondientes:

"Apple" se identifica como una organización (ORG)
"Tim Cook" se identifica como una persona (PER)
"California" se identifica como una ubicación (LOC)

Este formato coincide con la estructura de salida del código que procesa los tokens e imprime las entidades junto con sus tipos.

6.2.3 Uso del Modelo Ajustado

Las predicciones del modelo pueden ser post-procesadas para combinar tokens en menciones completas de entidades y filtrar predicciones de baja confianza para asegurar resultados confiables.

Ejemplo de Código: Predicción con Modelo Ajustado

# Import required libraries
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification

def predict_entities(text, model_path="./final_model"):
    """
    Predict named entities in the given text using a fine-tuned model
    
    Args:
        text (str): Input text for entity recognition
        model_path (str): Path to the fine-tuned model
        
    Returns:
        list: List of tuples containing (entity_text, entity_type)
    """
    # Load model and tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForTokenClassification.from_pretrained(model_path)
    
    # Put model in evaluation mode
    model.eval()
    
    # Tokenize and prepare input
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    
    # Get predictions
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=2)
    
    # Convert predictions to entity labels
    label_names = ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC"]
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    # Extract entities
    entities = []
    current_entity = None
    current_text = []
    
    for token, pred_idx in zip(tokens, predictions[0]):
        if pred_idx != -100:  # Ignore special tokens
            label = label_names[pred_idx]
            
            if label != "O":
                if label.startswith("B-"):
                    # Save previous entity if exists
                    if current_entity:
                        entities.append((" ".join(current_text), current_entity))
                    # Start new entity
                    current_entity = label[2:]
                    current_text = [token]
                elif label.startswith("I-"):
                    if current_entity:
                        current_text.append(token)
            else:
                if current_entity:
                    entities.append((" ".join(current_text), current_entity))
                    current_entity = None
                    current_text = []
    
    return entities

# Example usage
if __name__ == "__main__":
    # Test text
    text = "Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017."
    
    # Get predictions
    entities = predict_entities(text)
    
    # Print results in a formatted way
    print("\nInput Text:", text)
    print("\nDetected Entities:")
    for entity_text, entity_type in entities:
        print(f"{entity_type}: {entity_text}")

Desglose del Código:

Estructura de la Función
- Implementa una función predict_entities() autocontenida para fácil reutilización
- Incluye documentación apropiada con docstring
- Maneja la carga del modelo y predicción de manera limpia y organizada
Manejo del Modelo
- Carga el modelo ajustado y el tokenizador desde una ruta especificada
- Establece el modelo en modo de evaluación para desactivar dropout y otras características de entrenamiento
- Utiliza torch.no_grad() para una inferencia más eficiente
Extracción de Entidades
- Implementa lógica sofisticada de extracción de entidades
- Maneja adecuadamente las etiquetas B-(Inicio) e I-(Interior) para entidades de múltiples tokens
- Filtra tokens especiales y combina subpalabras en entidades completas
Formateo de Salida
- Devuelve una lista estructurada de tuplas de entidades
- Proporciona una salida formateada clara para fácil interpretación
- Incluye ejemplo de uso con caso de prueba realista

Salida Esperada:

Input Text: Amazon was founded by Jeff Bezos in Seattle. The company later acquired Whole Foods in 2017.

Detected Entities:
ORG: Amazon
PER: Jeff Bezos
LOC: Seattle
ORG: Whole Foods

6.2.4 Aplicaciones del NER

1. Extracción de Información

Extraer y clasificar entidades de documentos estructurados y no estructurados en diversos formatos y contextos. Esta potente capacidad permite:

Gestión de Eventos: Identificar y extraer automáticamente fechas, horas y ubicaciones de correos electrónicos, calendarios y documentos para agilizar la programación y coordinación de eventos.
Procesamiento de Información de Contacto: Extraer eficientemente nombres, títulos, números de teléfono y direcciones de correo electrónico de tarjetas de presentación, correos electrónicos y documentos para la gestión automatizada de bases de datos de contactos.
Análisis Geográfico: Detectar y categorizar información basada en ubicaciones, incluyendo direcciones, ciudades, regiones y países para permitir el análisis espacial y la cartografía.

En dominios específicos, el NER proporciona valor especializado:

Análisis de Documentos Legales: Identificar sistemáticamente las partes involucradas en casos, fechas importantes, jurisdicciones, citas de casos y terminología legal. Esto ayuda en la revisión de documentos, preparación de casos e investigación legal.
Procesamiento de Artículos de Noticias: Rastrear y analizar exhaustivamente personas (incluyendo sus roles y títulos), organizaciones (tanto mencionadas como involucradas), ubicaciones de eventos e información temporal para permitir el monitoreo de noticias y análisis de tendencias.
Investigación Académica: Extraer y categorizar citas, nombres de autores, metodologías de investigación, conjuntos de datos utilizados, hallazgos clave y terminología técnica. Esto facilita la revisión de literatura, meta-análisis y seguimiento del impacto de la investigación.

Ejemplo de Código: Sistema de Extracción de Información

import spacy
from transformers import pipeline
from typing import List, Dict, Tuple

class InformationExtractor:
    def __init__(self):
        # Load SpaCy model for basic NLP tasks
        self.nlp = spacy.load("en_core_web_sm")
        # Initialize transformer pipeline for NER
        self.ner_pipeline = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english")
        
    def extract_information(self, text: str) -> Dict:
        """
        Extract various types of information from text including entities,
        dates, and key phrases.
        """
        # Process text with SpaCy
        doc = self.nlp(text)
        
        # Extract information using transformers
        ner_results = self.ner_pipeline(text)
        
        # Combine and structure results
        extracted_info = {
            'entities': self._process_entities(ner_results),
            'dates': self._extract_dates(doc),
            'contact_info': self._extract_contact_info(doc),
            'key_phrases': self._extract_key_phrases(doc)
        }
        
        return extracted_info
    
    def _process_entities(self, ner_results: List) -> Dict[str, List[str]]:
        """Process and categorize named entities"""
        entities = {
            'PERSON': [], 'ORG': [], 'LOC': [], 'MISC': []
        }
        
        current_entity = {'text': [], 'type': None}
        
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    entity_type = current_entity['type']
                    entity_text = ' '.join(current_entity['text'])
                    entities[entity_type].append(entity_text)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
                
        return entities
    
    def _extract_dates(self, doc) -> List[str]:
        """Extract date mentions from text"""
        return [ent.text for ent in doc.ents if ent.label_ == 'DATE']
    
    def _extract_contact_info(self, doc) -> Dict[str, List[str]]:
        """Extract contact information (emails, phones, etc.)"""
        contact_info = {
            'emails': [],
            'phones': [],
            'addresses': []
        }
        
        email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
        phone_pattern = r'\b\d{3}[-.]?\d{3}[-.]?\d{4}\b'
        
        # Extract using patterns and NER
        for ent in doc.ents:
            if ent.label_ == 'GPE':
                contact_info['addresses'].append(ent.text)
                
        # Add regex matching for emails and phones
        contact_info['emails'] = [token.text for token in doc 
                                if token.like_email]
        
        return contact_info
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases based on dependency parsing"""
        key_phrases = []
        
        for chunk in doc.noun_chunks:
            if chunk.root.dep_ in ['nsubj', 'dobj']:
                key_phrases.append(chunk.text)
                
        return key_phrases

# Example usage
if __name__ == "__main__":
    extractor = InformationExtractor()
    
    sample_text = """
    John Smith, CEO of Tech Solutions Inc., will be speaking at our conference 
    on March 15, 2025. Contact him at john.smith@techsolutions.com or 
    call 555-123-4567. The event will be held at 123 Innovation Drive, 
    Silicon Valley, CA.
    """
    
    results = extractor.extract_information(sample_text)
    
    # Print results in a formatted way
    print("\nExtracted Information:")
    print("\nEntities:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}: {', '.join(entities)}")
    
    print("\nDates:", ', '.join(results['dates']))
    print("\nContact Information:")
    for info_type, info in results['contact_info'].items():
        print(f"{info_type}: {', '.join(info)}")
    
    print("\nKey Phrases:", ', '.join(results['key_phrases']))

Desglose y Explicación del Código:

Estructura de la Clase
- Implementa una clase InformationExtractor integral que combina múltiples herramientas de PLN
- Utiliza tanto SpaCy como Transformers para un reconocimiento de entidades robusto
- Organiza la lógica de extracción en métodos separados para facilitar el mantenimiento
Componentes de Extracción de Información
- Reconocimiento de entidades nombradas utilizando modelos transformer de última generación
- Extracción de fechas utilizando el reconocimiento de entidades de SpaCy
- Extracción de información de contacto utilizando tanto coincidencia de patrones como REN
- Extracción de frases clave utilizando análisis de dependencias
Lógica de Procesamiento
- Maneja la continuidad de entidades con etiquetas B-(Inicio) e I-(Interior)
- Implementa análisis de texto sofisticado para varios tipos de información
- Combina múltiples técnicas de extracción para resultados robustos
Organización de Salida
- Devuelve un diccionario estructurado con información categorizada
- Separa diferentes tipos de información extraída
- Proporciona una salida limpia y formateada para fácil interpretación

Salida Esperada:

Extracted Information:

Entities:
PERSON: John Smith
ORG: Tech Solutions Inc.
LOC: Silicon Valley, CA

Dates: March 15, 2025

Contact Information:
emails: john.smith@techsolutions.com
phones: 555-123-4567
addresses: Silicon Valley, CA

Key Phrases: John Smith, CEO of Tech Solutions Inc., our conference

2. Salud

Organizar y recuperar mejor la información del paciente
Mejorar la coordinación de la atención entre proveedores
Apoyar la toma de decisiones clínicas basada en evidencia
Mejorar el seguimiento de métricas de calidad
Agilizar los procesos de seguros y facturación

Ejemplo de Código: Sistema de Reconocimiento de Entidades Médicas

from transformers import pipeline
from typing import Dict, List, Tuple
import re
import spacy

class MedicalEntityExtractor:
    def __init__(self):
        # Load specialized medical NER model
        self.med_ner = pipeline("ner", model="alvaroalon2/biobert_diseases_ner")
        # Load SpaCy model for additional medical entities
        self.nlp = spacy.load("en_core_sci_md")
        
    def process_medical_text(self, text: str) -> Dict[str, List[str]]:
        """
        Extract medical entities from clinical text.
        
        Args:
            text (str): Clinical text to analyze
            
        Returns:
            Dict containing categorized medical entities
        """
        # Initialize categories
        medical_entities = {
            'conditions': [],
            'medications': [],
            'procedures': [],
            'lab_tests': [],
            'vitals': [],
            'anatomical_sites': []
        }
        
        # Process with transformer pipeline
        ner_results = self.med_ner(text)
        
        # Process with SpaCy
        doc = self.nlp(text)
        
        # Extract entities from transformer results
        current_entity = {'text': [], 'type': None}
        for token in ner_results:
            if token['entity'].startswith('B-'):
                if current_entity['text']:
                    self._add_entity(medical_entities, current_entity)
                current_entity = {
                    'text': [token['word']],
                    'type': token['entity'][2:]
                }
            elif token['entity'].startswith('I-'):
                current_entity['text'].append(token['word'])
        
        # Add final entity if exists
        if current_entity['text']:
            self._add_entity(medical_entities, current_entity)
        
        # Extract measurements and vitals
        self._extract_measurements(text, medical_entities)
        
        # Extract medications using regex patterns
        self._extract_medications(text, medical_entities)
        
        return medical_entities
    
    def _add_entity(self, medical_entities: Dict, entity: Dict):
        """Add extracted entity to appropriate category"""
        entity_text = ' '.join(entity['text'])
        entity_type = entity['type']
        
        if entity_type == 'DISEASE':
            medical_entities['conditions'].append(entity_text)
        elif entity_type == 'PROCEDURE':
            medical_entities['procedures'].append(entity_text)
        elif entity_type == 'TEST':
            medical_entities['lab_tests'].append(entity_text)
            
    def _extract_measurements(self, text: str, medical_entities: Dict):
        """Extract vital signs and measurements"""
        # Patterns for common vital signs
        vital_patterns = {
            'blood_pressure': r'\d{2,3}/\d{2,3}',
            'temperature': r'\d{2}\.?\d*°[CF]',
            'pulse': r'HR:?\s*\d{2,3}',
            'oxygen': r'O2\s*sat:?\s*\d{2,3}%'
        }
        
        for vital_type, pattern in vital_patterns.items():
            matches = re.finditer(pattern, text)
            medical_entities['vitals'].extend(
                [match.group() for match in matches]
            )
            
    def _extract_medications(self, text: str, medical_entities: Dict):
        """Extract medication information"""
        # Pattern for medication with optional dosage
        med_pattern = r'\b\w+\s*\d*\s*mg/\w+|\b\w+\s*\d*\s*mg\b'
        matches = re.finditer(med_pattern, text)
        medical_entities['medications'].extend(
            [match.group() for match in matches]
        )

# Example usage
if __name__ == "__main__":
    extractor = MedicalEntityExtractor()
    
    sample_text = """
    Patient presents with acute bronchitis and hypertension. 
    BP: 140/90, Temperature: 38.5°C, HR: 88, O2 sat: 97%
    Currently taking Lisinopril 10mg daily and Ventolin 2.5mg/mL PRN.
    Lab tests ordered: CBC, CMP, and chest X-ray.
    """
    
    results = extractor.process_medical_text(sample_text)
    
    print("\nExtracted Medical Entities:")
    for category, entities in results.items():
        if entities:
            print(f"\n{category.title()}:")
            for entity in entities:
                print(f"- {entity}")

Desglose del Código:

Arquitectura de Clase
- Implementa una clase MedicalEntityExtractor especializada que combina múltiples enfoques de PLN
- Utiliza el modelo BioBERT ajustado para el reconocimiento de entidades médicas
- Incorpora el modelo científico de SpaCy para la detección adicional de entidades
Procesamiento de Entidades
- Maneja varios tipos de entidades médicas incluyendo condiciones, medicamentos y procedimientos
- Implementa coincidencia de patrones sofisticada para signos vitales y mediciones
- Utiliza patrones regex para la extracción de medicamentos con información de dosificación
Características Avanzadas
- Combina enfoques basados en transformers y reglas para una cobertura integral
- Maneja terminología médica compleja y abreviaturas
- Procesa texto clínico estructurado y no estructurado

Salida Esperada:

Extracted Medical Entities:

Conditions:
- acute bronchitis
- hypertension

Vitals:
- 140/90
- 38.5°C
- HR: 88
- O2 sat: 97%

Medications:
- Lisinopril 10mg
- Ventolin 2.5mg/mL

Lab Tests:
- CBC
- CMP
- chest X-ray

3. Análisis de Comentarios de Clientes

Además, las capacidades avanzadas de reconocimiento de entidades del sistema se extienden a la inteligencia competitiva mediante:

El reconocimiento de nombres de competidores y productos en comparaciones de clientes
El seguimiento de información de precios y ofertas promocionales en los mercados
El análisis de indicadores de calidad de servicio a través de narrativas de experiencia del cliente
La identificación de tendencias emergentes del mercado y preferencias de los clientes
El monitoreo del panorama competitivo para nuevos lanzamientos o características de productos

Ejemplo de Código: Sistema de Análisis de Comentarios de Clientes

from transformers import pipeline
from typing import Dict, List, Tuple
import pandas as pd
import spacy
from collections import defaultdict

class CustomerFeedbackAnalyzer:
    def __init__(self):
        # Initialize sentiment analysis pipeline
        self.sentiment_analyzer = pipeline("sentiment-analysis")
        # Initialize NER pipeline for product/feature detection
        self.ner = spacy.load("en_core_web_sm")
        # Initialize aspect-based sentiment classifier
        self.aspect_classifier = pipeline("text-classification", 
                                       model="nlptown/bert-base-multilingual-uncased-sentiment")
    
    def analyze_feedback(self, feedback: str) -> Dict:
        """
        Analyze customer feedback for sentiment, entities, and aspects.
        
        Args:
            feedback (str): Customer feedback text
            
        Returns:
            Dict containing analysis results
        """
        results = {
            'overall_sentiment': None,
            'entities': defaultdict(list),
            'aspects': [],
            'key_phrases': []
        }
        
        # Overall sentiment analysis
        sentiment = self.sentiment_analyzer(feedback)[0]
        results['overall_sentiment'] = {
            'label': sentiment['label'],
            'score': sentiment['score']
        }
        
        # Entity recognition
        doc = self.ner(feedback)
        for ent in doc.ents:
            results['entities'][ent.label_].append({
                'text': ent.text,
                'start': ent.start_char,
                'end': ent.end_char
            })
        
        # Aspect-based sentiment analysis
        aspects = self._extract_aspects(doc)
        for aspect in aspects:
            aspect_text = aspect['text']
            aspect_context = self._get_aspect_context(feedback, aspect)
            aspect_sentiment = self.aspect_classifier(aspect_context)[0]
            
            results['aspects'].append({
                'aspect': aspect_text,
                'sentiment': aspect_sentiment['label'],
                'confidence': aspect_sentiment['score'],
                'context': aspect_context
            })
        
        # Extract key phrases
        results['key_phrases'] = self._extract_key_phrases(doc)
        
        return results
    
    def _extract_aspects(self, doc) -> List[Dict]:
        """Extract product aspects/features from text"""
        aspects = []
        
        # Pattern matching for noun phrases
        for chunk in doc.noun_chunks:
            if self._is_valid_aspect(chunk):
                aspects.append({
                    'text': chunk.text,
                    'start': chunk.start_char,
                    'end': chunk.end_char
                })
        
        return aspects
    
    def _is_valid_aspect(self, chunk) -> bool:
        """Validate if noun chunk is a valid product aspect"""
        invalid_words = {'i', 'you', 'he', 'she', 'it', 'we', 'they'}
        return (
            chunk.root.pos_ == 'NOUN' and
            chunk.root.text.lower() not in invalid_words
        )
    
    def _get_aspect_context(self, text: str, aspect: Dict, window: int = 50) -> str:
        """Extract context around an aspect for sentiment analysis"""
        start = max(0, aspect['start'] - window)
        end = min(len(text), aspect['end'] + window)
        return text[start:end]
    
    def _extract_key_phrases(self, doc) -> List[str]:
        """Extract important phrases from feedback"""
        key_phrases = []
        
        for sent in doc.sents:
            # Extract subject-verb-object patterns
            for token in sent:
                if token.dep_ == 'nsubj' and token.head.pos_ == 'VERB':
                    phrase = self._build_phrase(token)
                    if phrase:
                        key_phrases.append(phrase)
        
        return key_phrases
    
    def _build_phrase(self, token) -> str:
        """Build meaningful phrase from dependency parse"""
        words = []
        
        # Get subject
        words.extend(token.subtree)
        
        # Sort words by their position in text
        words = sorted(words, key=lambda x: x.i)
        
        return ' '.join([word.text for word in words])

# Example usage
if __name__ == "__main__":
    analyzer = CustomerFeedbackAnalyzer()
    
    feedback = """
    The new iPhone 13's battery life is impressive, but the camera quality could be better.
    Face ID works flawlessly in low light conditions. However, the price point is quite high
    compared to similar Android phones.
    """
    
    results = analyzer.analyze_feedback(feedback)
    
    print("Analysis Results:")
    print("\nOverall Sentiment:", results['overall_sentiment']['label'])
    print("\nEntities Found:")
    for entity_type, entities in results['entities'].items():
        print(f"{entity_type}:", [e['text'] for e in entities])
    
    print("\nAspect-Based Sentiment:")
    for aspect in results['aspects']:
        print(f"- {aspect['aspect']}: {aspect['sentiment']}")
    
    print("\nKey Phrases:")
    for phrase in results['key_phrases']:
        print(f"- {phrase}")

Desglose y Explicación del Código:

Arquitectura de Clase
- Implementa CustomerFeedbackAnalyzer combinando múltiples técnicas de PLN
- Utiliza modelos basados en transformers para análisis y clasificación de sentimientos
- Incorpora SpaCy para el reconocimiento de entidades y análisis de dependencias
Componentes de Análisis
- Análisis general de sentimientos utilizando modelos transformer pre-entrenados
- Reconocimiento de entidades para identificación de productos y características
- Análisis de sentimientos basado en aspectos para características específicas de productos
- Extracción de frases clave mediante análisis de dependencias
Características Avanzadas
- Análisis de ventana contextual para sentimientos precisos de aspectos
- Construcción sofisticada de frases a partir de árboles de dependencias
- Categorización flexible de entidades y puntuación de sentimientos

Salida Esperada:

Analysis Results:

Overall Sentiment: POSITIVE

Entities Found:
PRODUCT: ['iPhone 13', 'Android']
ORG: ['Face ID']

Aspect-Based Sentiment:
- battery life: POSITIVE
- camera quality: NEGATIVE
- Face ID: POSITIVE
- price point: NEGATIVE

Key Phrases:
- battery life is impressive
- camera quality could be better
- Face ID works flawlessly
- price point is quite high

4. Motores de Búsqueda

Esta tecnología también permite características sofisticadas como:

Expansión de consultas: Inclusión automática de términos relacionados y sinónimos
Búsqueda semántica: Comprensión del significado detrás de las consultas en lugar de solo emparejar palabras clave
Resultados personalizados: Adaptación de los resultados de búsqueda basados en las preferencias del usuario e interacciones previas con entidades
Búsquedas relacionadas: Sugerencia de consultas relevantes basadas en relaciones entre entidades y patrones comunes de búsqueda

Ejemplo de Código: Motor de Búsqueda Consciente de Entidades

from transformers import AutoTokenizer, AutoModel
from typing import List, Dict, Tuple
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import spacy

class EntityAwareSearchEngine:
    def __init__(self):
        # Initialize BERT model for semantic understanding
        self.tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
        self.model = AutoModel.from_pretrained('bert-base-uncased')
        # Load SpaCy for entity recognition
        self.nlp = spacy.load('en_core_web_sm')
        # Initialize document store
        self.document_embeddings = {}
        self.document_entities = {}
    
    def index_document(self, doc_id: str, content: str):
        """
        Index a document with its embeddings and entities
        """
        # Generate document embedding
        inputs = self.tokenizer(content, return_tensors='pt', 
                              truncation=True, max_length=512)
        with torch.no_grad():
            outputs = self.model(**inputs)
            embedding = outputs.last_hidden_state.mean(dim=1)
        
        # Store document embedding
        self.document_embeddings[doc_id] = embedding
        
        # Extract and store entities
        doc = self.nlp(content)
        self.document_entities[doc_id] = {
            'entities': [(ent.text, ent.label_) for ent in doc.ents],
            'content': content
        }
    
    def search(self, query: str, top_k: int = 5) -> List[Dict]:
        """
        Perform entity-aware search
        """
        # Extract entities from query
        query_doc = self.nlp(query)
        query_entities = [(ent.text, ent.label_) for ent in query_doc.ents]
        
        # Generate query embedding
        query_inputs = self.tokenizer(query, return_tensors='pt',
                                    truncation=True, max_length=512)
        with torch.no_grad():
            query_outputs = self.model(**query_inputs)
            query_embedding = query_outputs.last_hidden_state.mean(dim=1)
        
        results = []
        for doc_id, doc_embedding in self.document_embeddings.items():
            # Calculate semantic similarity
            similarity = cosine_similarity(
                query_embedding.numpy(),
                doc_embedding.numpy()
            )[0][0]
            
            # Calculate entity match score
            entity_score = self._calculate_entity_score(
                query_entities,
                self.document_entities[doc_id]['entities']
            )
            
            # Combine scores
            final_score = 0.7 * similarity + 0.3 * entity_score
            
            results.append({
                'doc_id': doc_id,
                'score': final_score,
                'content': self.document_entities[doc_id]['content'][:200] + '...',
                'matched_entities': self._get_matching_entities(
                    query_entities,
                    self.document_entities[doc_id]['entities']
                )
            })
        
        # Sort by score and return top_k results
        results.sort(key=lambda x: x['score'], reverse=True)
        return results[:top_k]
    
    def _calculate_entity_score(self, query_entities: List[Tuple],
                              doc_entities: List[Tuple]) -> float:
        """
        Calculate entity matching score between query and document
        """
        if not query_entities:
            return 0.0
        
        matches = 0
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches += 1
                    break
        
        return matches / len(query_entities)
    
    def _get_matching_entities(self, query_entities: List[Tuple],
                             doc_entities: List[Tuple]) -> List[Dict]:
        """
        Get list of matching entities between query and document
        """
        matches = []
        for q_ent in query_entities:
            for d_ent in doc_entities:
                if (q_ent[0].lower() == d_ent[0].lower() and 
                    q_ent[1] == d_ent[1]):
                    matches.append({
                        'text': d_ent[0],
                        'type': d_ent[1]
                    })
        return matches

# Example usage
if __name__ == "__main__":
    search_engine = EntityAwareSearchEngine()
    
    # Index sample documents
    documents = {
        "doc1": "Apple CEO Tim Cook announced new iPhone models at the event in Cupertino.",
        "doc2": "The apple pie recipe requires fresh apples from Washington state.",
        "doc3": "Microsoft and Apple are leading tech companies in the US market."
    }
    
    for doc_id, content in documents.items():
        search_engine.index_document(doc_id, content)
    
    # Perform search
    results = search_engine.search("What did Tim Cook announce?")
    
    print("Search Results:")
    for result in results:
        print(f"\nDocument {result['doc_id']} (Score: {result['score']:.2f})")
        print(f"Content: {result['content']}")
        print("Matched Entities:", result['matched_entities'])

Desglose y Explicación del Código:

Componentes Principales
- Combina búsqueda semántica basada en BERT con reconocimiento de entidades
- Utiliza SpaCy para la extracción y clasificación eficiente de entidades
- Implementa un sistema híbrido de puntuación que combina coincidencias semánticas y de entidades
Características Principales
- Indexación de documentos con información de embeddings y entidades
- Búsqueda consciente de entidades que considera tanto la similitud semántica como las coincidencias de entidades
- Sistema flexible de puntuación con pesos configurables para diferentes factores
Capacidades Avanzadas
- Maneja la desambiguación de entidades a través del contexto
- Proporciona resultados de búsqueda detallados con entidades coincidentes
- Admite la clasificación de documentos basada en múltiples factores de relevancia

Salida Esperada:

Search Results:

Document doc1 (Score: 0.85)
Content: Apple CEO Tim Cook announced new iPhone models at the event in Cupertino...
Matched Entities: [
    {'text': 'Tim Cook', 'type': 'PERSON'},
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc3 (Score: 0.45)
Content: Microsoft and Apple are leading tech companies in the US market...
Matched Entities: [
    {'text': 'Apple', 'type': 'ORG'}
]

Document doc2 (Score: 0.15)
Content: The apple pie recipe requires fresh apples from Washington state...
Matched Entities: []

6.2.5 Desafíos en el NER

Ambigüedad

Ambigüedad del Tipo de Entidad: Ejemplos comunes incluyen:

"Apple": Podría representar la empresa tecnológica (ORGANIZACIÓN), la fruta (ALIMENTO), o Apple Records (ORGANIZACIÓN)
"Washington": Puede referirse al estado de EE. UU. (UBICACIÓN), la ciudad capital (UBICACIÓN), o George Washington (PERSONA)
"Mercury": Podría indicar el planeta (CUERPO_CELESTE), el elemento químico (SUSTANCIA), o la marca de automóviles (ORGANIZACIÓN)

Esta ambigüedad se vuelve particularmente desafiante para los sistemas NER porque la clasificación precisa requiere:

Análisis Contextual: Examinar las palabras y frases circundantes para determinar el tipo de entidad apropiado
Conocimiento del Dominio: Comprender el tema o campo más amplio del texto
Comprensión Semántica: Captar el significado general y la intención del pasaje
Reconocimiento de Relaciones: Identificar cómo la entidad se relaciona con otras entidades mencionadas

Los sistemas NER deben emplear algoritmos sofisticados y pistas contextuales para resolver estas ambigüedades, utilizando frecuentemente:

Contexto a nivel de documento
Datos de entrenamiento específicos del sector
Resolución de correferencias
Vinculación de entidades con bases de conocimiento

Variaciones Específicas del Dominio

Tipos de Entidades Específicas del Dominio:

Dominio Legal: Los documentos contienen entidades especializadas como citas de casos (por ejemplo, "Brown v. Board of Education"), estatutos (por ejemplo, "Sección 230 de la Ley de Decencia en las Comunicaciones"), principios legales (por ejemplo, "doctrina del uso justo"), y referencias jurisdiccionales.
Dominio Biomédico: Los textos frecuentemente hacen referencia a secuencias genéticas (por ejemplo, "BRCA1"), clasificaciones de enfermedades (por ejemplo, "Diabetes Tipo 2"), nombres de medicamentos (por ejemplo, "metilprednisolona"), y términos anatómicos.
Dominio Financiero: Las entidades incluyen símbolos bursátiles, índices de mercado, instrumentos financieros y referencias regulatorias.

Requisitos de Entrenamiento:

Cada dominio necesita conjuntos de datos de entrenamiento cuidadosamente curados que capturen el vocabulario único y las relaciones entre entidades dentro de ese campo.
Pueden requerirse arquitecturas de modelo personalizadas para manejar patrones y relaciones específicos del dominio de manera efectiva.
A menudo se necesitan expertos del dominio para crear pautas precisas de anotación y validar datos de entrenamiento.

Desafíos Entre Dominios:

Los términos pueden tener significados radicalmente diferentes entre dominios:
- "Java" → Lenguaje de programación (Tecnología)
- "Java" → Ubicación geográfica (Viajes/Geografía)
- "Java" → Variedad de café (Alimentos/Bebidas)
El contexto se vuelve crucial para la clasificación precisa de entidades
El aprendizaje por transferencia entre dominios puede ser limitado debido a estas diferencias fundamentales en terminología y patrones de uso.

Idiomas con Recursos Limitados

Escasez de Datos:

Conjuntos de datos anotados limitados para entrenamiento
- Ejemplos insuficientes del mundo real para la validación del modelo
- Falta de referencias estandarizadas para la evaluación del rendimiento

Complejidad Lingüística:

Estructuras gramaticales únicas que difieren de los idiomas con muchos recursos
- Sistemas morfológicos complejos que requieren procesamiento especializado
- Sistemas de escritura que pueden no seguir reglas convencionales de tokenización

Limitaciones Técnicas:

Pocos o ningún modelo pre-entrenado disponible
- Recursos computacionales limitados dedicados a estos idiomas
- Falta de categorías de entidades estandarizadas que reflejen el contexto cultural

Este desafío se extiende más allá de los idiomas raros para incluir:

Dialectos regionales con vocabulario y gramática únicos
Vocabularios técnicos en campos especializados
Idiomas emergentes y comunicaciones digitales

Los enfoques tradicionales de NER, que fueron desarrollados principalmente para idiomas con muchos recursos como el inglés, a menudo tienen dificultades con estos idiomas debido a:

Suposiciones sobre el orden de las palabras y la sintaxis que pueden no aplicar
Dependencia de datos de entrenamiento a gran escala que no están disponibles
Comprensión limitada de matices culturales y contextuales

6.2.6 Puntos Clave

El Reconocimiento de Entidades Nombradas (NER) es una tarea crucial de PLN que identifica y clasifica automáticamente entidades nombradas dentro del texto. Sirve como un componente fundamental para muchas aplicaciones avanzadas de procesamiento del lenguaje natural al identificar elementos específicos como:
- Personas y nombres personales
- Organizaciones e instituciones
- Ubicaciones geográficas y lugares
- Fechas, horas y expresiones temporales
- Cantidades, medidas y valores monetarios
Las arquitecturas Transformer, con BERT a la cabeza, han avanzado significativamente las capacidades del NER a través de varias innovaciones clave:
- Mecanismos avanzados de atención que capturan dependencias de largo alcance en el texto
- Comprensión contextual que ayuda a desambiguar entidades basándose en las palabras circundantes
- Pre-entrenamiento en conjuntos de datos masivos que construye una comprensión robusta del lenguaje
- Capacidades de ajuste fino que permiten la adaptación a dominios específicos
- Tokenización de subpalabras que maneja efectivamente palabras fuera del vocabulario
Las aplicaciones prácticas del NER abarcan una amplia gama de industrias y casos de uso:
- Salud: Extracción de entidades médicas de notas clínicas y artículos de investigación
- Legal: Identificación de partes, citas y jurisdicciones en documentos legales
- Finanzas: Reconocimiento de nombres de empresas, instrumentos financieros y transacciones
- Investigación: Automatización de revisión de literatura y extracción de conocimiento
- Medios: Seguimiento de menciones de personas, organizaciones y eventos
Si bien la tecnología NER ha logrado avances significativos, continúa enfrentando desafíos importantes:
- Ambigüedad contextual donde la misma palabra puede representar diferentes tipos de entidades
- Terminología específica del dominio que requiere datos de entrenamiento especializados
- Manejo de entidades emergentes y casos raros
- Dificultades de adaptación entre dominios y entre idiomas
- Requisitos de procesamiento en tiempo real para aplicaciones a gran escala

Compra este libro