Click here to view the next lesson.

Capítulo 8: Resumen de Texto

8.1 Resumen Extractivo

El resumen de textos es una técnica muy valiosa en el campo del Procesamiento de Lenguaje Natural (PLN) que tiene como objetivo generar un resumen conciso y coherente de un texto más extenso. El objetivo principal de esta técnica es retener la información más importante y los puntos clave, mientras se reduce significativamente la cantidad de texto que necesita ser leído. Esta capacidad para condensar información hace que el resumen de textos sea extremadamente útil en diversas aplicaciones, como la agregación de noticias, la gestión de documentos y la curaduría de contenidos.

El resumen de textos puede clasificarse en dos categorías principales: resumen extractivo y resumen abstractivo. El resumen extractivo implica seleccionar y extraer oraciones o frases clave directamente del texto original, creando así un resumen que consiste enteramente en partes del material fuente. Por otro lado, el resumen abstractivo implica generar nuevas oraciones que transmitan el mismo significado que el texto original, pero que no necesariamente están presentes en él. Este método intenta parafrasear y reformular el contenido original para producir un resumen más natural y coherente.

En este capítulo, profundizaremos en las técnicas de resumen extractivo y abstractivo en detalle. Discutiremos los principios subyacentes que guían estos métodos, los diversos algoritmos que se han desarrollado para implementarlos y las implementaciones prácticas que se pueden usar en aplicaciones del mundo real. Comenzaremos nuestra exploración con el resumen extractivo, ya que es más simple de entender y se usa más comúnmente en la práctica.

El resumen extractivo se basa en identificar las oraciones más importantes dentro de un texto y unirlas para formar un resumen. Después de cubrir el resumen extractivo, pasaremos a discutir el resumen abstractivo. Este tipo de resumen es más complejo, ya que requiere que el sistema entienda el texto a un nivel más profundo y genere nuevas oraciones que reflejen con precisión el contenido original. El resumen abstractivo se acerca más a la forma en que los humanos suelen resumir el texto, lo que lo convierte en una técnica más sofisticada y avanzada.

A lo largo de este capítulo, proporcionaremos ejemplos, estudios de caso y detalles de implementación para brindarte una comprensión completa de ambas técnicas de resumen. Al final de este capítulo, deberías tener una comprensión profunda de cómo funciona el resumen de textos y cómo puedes aplicar estos métodos a tus propios proyectos.

El resumen extractivo implica seleccionar las oraciones más importantes del texto original y combinarlas para formar un resumen. Este enfoque se basa en identificar oraciones clave según varios criterios, como la posición de la oración, la frecuencia de términos y la similitud semántica. Al centrarse en estos criterios, el resumen extractivo puede capturar eficazmente la esencia del texto original.

El resumen extractivo es directo y fácil de implementar, lo que lo convierte en una opción popular para muchas aplicaciones. Sin embargo, puede que no siempre produzca un resumen coherente y fluido, ya que las oraciones seleccionadas pueden no fluir bien juntas. Además, este método no genera nuevas oraciones ni reformula el contenido, lo que puede limitar su efectividad en algunos casos. A pesar de estas limitaciones, el resumen extractivo sigue siendo una herramienta valiosa para generar rápidamente resúmenes concisos de textos más largos.

8.1.1 Entendiendo el Resumen Extractivo

Los pasos principales involucrados en el resumen extractivo son:

Preprocesamiento: Este es el paso inicial donde los datos de texto se limpian y preparan para un análisis posterior. Involucra varios sub-pasos, tales como:
- Tokenización: Dividir el texto en palabras o oraciones individuales.
- Eliminación de palabras vacías: Eliminar palabras comunes que no contribuyen mucho al significado (por ejemplo, "y", "el").
- Normalización: Convertir todo el texto a un formato estándar, como poner en minúsculas todas las palabras.
Puntuación de Oraciones: A cada oración en el texto se le asigna una puntuación basada en ciertas características. Estas características pueden incluir:
- Frecuencia de términos: Con qué frecuencia aparecen palabras importantes en la oración.
- Posición de la oración: La posición de la oración en el texto (por ejemplo, las primeras y últimas oraciones de un párrafo suelen ser importantes).
- Similitud con el título: Qué tan estrechamente se alinea la oración con el título o el tema principal del texto.
Selección de Oraciones: Se seleccionan las oraciones con las puntuaciones más altas para su inclusión en el resumen. El objetivo es elegir oraciones que colectivamente representen los puntos más importantes del texto.
Generación de Resumen: Las oraciones seleccionadas se combinan para formar un resumen coherente y conciso. Este paso implica ordenar las oraciones de manera lógica para asegurar que el resumen sea fácil de leer y entender.

Al seguir estos pasos, el resumen extractivo puede condensar eficazmente un gran cuerpo de texto en una versión más corta que retenga la información clave. Este método es sencillo de implementar y se utiliza comúnmente en diversas aplicaciones como la agregación de noticias y la gestión de documentos.

Sin embargo, el resumen extractivo tiene sus limitaciones. Dado que se basa en seleccionar oraciones existentes, el resumen resultante puede carecer de coherencia y fluidez. Además, no genera nuevas oraciones ni parafrasea el contenido, lo que puede limitar su capacidad para proporcionar un resumen más natural y legible en comparación con los métodos de resumen abstractivo.

El resumen extractivo es una herramienta valiosa para generar rápidamente resúmenes concisos de textos más largos al centrarse en las oraciones más importantes. A pesar de su simplicidad y eficiencia, puede que no siempre produzca los resúmenes más coherentes y fluidos, pero proporciona una base sólida para entender técnicas de resumen más avanzadas.

8.1.2 Implementación del Resumen Extractivo

Usaremos la biblioteca nltk para implementar un sistema simple de resumen extractivo. Veamos cómo realizar un resumen extractivo en un texto de ejemplo.

Ejemplo: Resumen Extractivo con NLTK

Primero, instala la biblioteca nltk si no lo has hecho ya:

pip install nltk

Ahora, implementemos la resumen extractiva:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx

nltk.download('punkt')
nltk.download('stopwords')

# Sample text
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# Preprocess the text
sentences = sent_tokenize(text)
stop_words = set(stopwords.words('english'))

def preprocess_sentence(sentence):
    words = word_tokenize(sentence.lower())
    words = [word for word in words if word.isalnum() and word not in stop_words]
    return words

# Sentence scoring based on term frequency
def score_sentences(sentences):
    sentence_scores = []
    word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)])

    for sentence in sentences:
        words = preprocess_sentence(sentence)
        sentence_score = sum(word_frequencies[word] for word in words)
        sentence_scores.append((sentence, sentence_score))

    return sentence_scores

# Select top-ranked sentences
def select_sentences(sentence_scores, num_sentences=2):
    sentence_scores.sort(key=lambda x: x[1], reverse=True)
    selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]]
    return selected_sentences

# Generate summary
sentence_scores = score_sentences(sentences)
summary_sentences = select_sentences(sentence_scores)
summary = ' '.join(summary_sentences)

print("Summary:")
print(summary)

Este script de ejemplo demuestra cómo realizar un resumen extractivo utilizando la biblioteca Natural Language Toolkit (nltk).

Aquí hay una explicación paso a paso del script:

Importar Bibliotecas: El script importa varios módulos de la biblioteca nltk, incluyendo sent_tokenize para la tokenización de oraciones, word_tokenize para la tokenización de palabras, stopwords para eliminar palabras comunes que no contribuyen mucho al significado y FreqDist para calcular las frecuencias de las palabras. También importa cosine_distance de nltk.cluster.util, numpy para operaciones numéricas y networkx para algoritmos basados en grafos.
import nltk from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords from nltk.probability import FreqDist from nltk.cluster.util import cosine_distance import numpy as np import networkx as nx
Descargar Recursos de NLTK: El script descarga los recursos necesarios de NLTK, incluyendo el tokenizador 'punkt' y el corpus de 'stopwords'.
nltk.download('punkt') nltk.download('stopwords')
Texto de Ejemplo: Se proporciona un texto de ejemplo para el resumen. Este texto discute el campo del Procesamiento de Lenguaje Natural (PLN) y sus desafíos.
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."""
Preprocesar el Texto: El texto se tokeniza en oraciones utilizando sent_tokenize. Se recuperan las palabras vacías usando stopwords.words('english').
sentences = sent_tokenize(text) stop_words = set(stopwords.words('english'))
Preprocesar Oraciones: Se define una función preprocess_sentence para preprocesar cada oración tokenizándola en palabras, convirtiéndolas a minúsculas y eliminando palabras vacías y caracteres no alfanuméricos.
def preprocess_sentence(sentence): words = word_tokenize(sentence.lower()) words = [word for word in words if word.isalnum() and word not in stop_words] return words
Puntuación de Oraciones Basada en Frecuencia de Términos: Se define una función score_sentences para puntuar cada oración basada en la frecuencia de términos. Calcula las frecuencias de palabras usando FreqDist y suma las frecuencias de las palabras en cada oración para asignar una puntuación.
def score_sentences(sentences): sentence_scores = [] word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)]) for sentence in sentences: words = preprocess_sentence(sentence) sentence_score = sum(word_frequencies[word] for word in words) sentence_scores.append((sentence, sentence_score)) return sentence_scores
Seleccionar las Oraciones Mejor Clasificadas: Se define una función select_sentences para ordenar las oraciones por sus puntuaciones en orden descendente y seleccionar las oraciones mejor clasificadas según un número especificado (num_sentences).
def select_sentences(sentence_scores, num_sentences=2): sentence_scores.sort(key=lambda x: x[1], reverse=True) selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]] return selected_sentences
Generar Resumen: El script llama a score_sentences para puntuar las oraciones y a select_sentences para seleccionar las oraciones mejor clasificadas. Las oraciones seleccionadas se unen para formar el resumen, que se imprime.
sentence_scores = score_sentences(sentences) summary_sentences = select_sentences(sentence_scores) summary = ' '.join(summary_sentences) print("Summary:") print(summary)

Salida:

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between
computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida:

El resumen generado por el script consiste en las dos oraciones que recibieron las puntuaciones más altas basadas en la frecuencia de términos. Estas oraciones se consideran las más importantes y representativas del texto original. El script condensa efectivamente el cuerpo de texto más grande en un resumen conciso al centrarse en las oraciones clave.

Este script proporciona una implementación básica de resumen extractivo utilizando la biblioteca NLTK. Demuestra cómo preprocesar el texto, puntuar oraciones basadas en la frecuencia de términos y seleccionar las oraciones mejor clasificadas para generar un resumen. Aunque este enfoque es relativamente simple, forma la base para técnicas más avanzadas y puede extenderse para incluir características y métodos adicionales para un resumen mejorado.

8.1.3 Técnicas Avanzadas de Resumen Extractivo

Además del método simple de frecuencia de términos, existen técnicas más avanzadas para el resumen extractivo, incluyendo:

TextRank: Un algoritmo de clasificación basado en grafos que utiliza la similitud entre oraciones para clasificarlas.
Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave.
Aprendizaje Supervisado: Utilizando datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para el resumen.

Vamos a profundizar en cada una de estas técnicas en más detalle:

TextRank

TextRank es una adaptación del algoritmo PageRank, originalmente utilizado por Google para clasificar páginas web. En el contexto del resumen de textos, TextRank construye un grafo donde cada nodo representa una oración, y los bordes entre los nodos representan la similitud entre las oraciones.

Las oraciones que son más similares a muchas otras oraciones reciben clasificaciones más altas. Aquí hay una implementación básica de TextRank utilizando la biblioteca networkx:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# NLTK downloads (depending on the environment, 'punkt_tab' may also be required)
nltk.download('punkt')
nltk.download('stopwords')

# Sample text (replace with the reader's input)
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# 1) Sentences and light normalization
sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

# 2) TF-IDF vectorization per sentence
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

# 3) Cosine similarity matrix
sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)          # avoid dominant self-loops

# 4) TextRank with NetworkX (PageRank over the similarity graph)
graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

# 5) Selection of top-ranked sentences
num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

print("Summary:")
print(summary)

Este script de ejemplo demuestra cómo realizar resúmenes extractivos utilizando las bibliotecas Natural Language Toolkit (NLTK), scikit-learn y NetworkX. El objetivo de la resumición extractiva es generar un resumen conciso seleccionando las oraciones más importantes del texto original.

Aquí hay un desglose detallado:

1. Importar Bibliotecas

El script comienza importando varias bibliotecas:

nltk: Para tareas de procesamiento de lenguaje natural como tokenización y eliminación de palabras vacías.
numpy: Para operaciones numéricas.
networkx: Para crear y analizar grafos, que se utiliza en el algoritmo TextRank.
sklearn.feature_extraction.text.TfidfVectorizer: Para convertir oraciones en vectores TF-IDF.
sklearn.metrics.pairwise.cosine_similarity: Para medir la similitud entre vectores de oraciones.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

2. Descargar Recursos de NLTK

Antes de procesar el texto, el script descarga los recursos necesarios para la tokenización y las palabras vacías.

nltk.download('punkt')
nltk.download('stopwords')

3. Texto de Muestra

Se proporciona un texto de muestra para demostrar la resumición extractiva.

text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

4. Tokenización de Oraciones

El texto se divide en oraciones y se cargan las palabras vacías (stopwords) en inglés.

sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

5. Normalización del Texto

Se define una función auxiliar para normalizar las oraciones:

Tokenizar cada oración en palabras.
Convertir todas las palabras a minúsculas.
Eliminar las palabras vacías y los tokens no alfanuméricos.

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

6. Vectorización de Oraciones con TF-IDF

Cada oración normalizada se convierte en un vector TF-IDF. Esto asegura que todas las oraciones estén representadas numéricamente con una longitud de vector igual.

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

7. Construir Matriz de Similitud de Oraciones

Se calcula la similitud del coseno entre todos los pares de vectores de oraciones para formar una matriz de similitud. La diagonal se establece en cero para evitar que la auto-similitud domine el grafo.

sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)

8. Aplicar el Algoritmo TextRank

La matriz de similitud se trata como un grafo, donde las oraciones son nodos y las puntuaciones de similitud son pesos de aristas. Luego se aplica la implementación de PageRank de NetworkX para clasificar las oraciones.

graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

9. Seleccionar las Mejores Oraciones para el Resumen

Las oraciones se ordenan por sus puntuaciones de PageRank, y se seleccionan las dos mejores para el resumen.

num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

10. Imprimir el Resumen

Finalmente, las oraciones seleccionadas se combinan y se muestran como el resumen extractivo.

print("Summary:")
print(summary)

Ejemplo de Salida

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida

El resumen consiste en las dos oraciones con las puntuaciones de PageRank más altas. Estas oraciones se consideran las más centrales e informativas con respecto al texto completo.

Este script proporciona una implementación corregida y mejorada de TextRank aprovechando TF-IDF para la representación de oraciones. Evita errores de las listas de tokens sin procesar, produce resultados de mayor calidad y demuestra una base sólida para técnicas de resumición extractiva más avanzadas.

Resumen de los Pasos Clave:

Preprocesamiento: Este paso inicial implica descomponer el texto en partes más pequeñas. Específicamente, incluye la tokenización del texto en oraciones y palabras individuales. Además, es crucial eliminar las palabras vacías (stopwords), que son palabras comunes que no contribuyen mucho al significado del texto, como "and", "the" y "is".
Matriz de Similitud: En este paso, se construye una matriz de similitud. Esta matriz se basa en la distancia coseno entre oraciones, que mide qué tan similar es cada oración con las demás. El resultado es una red de oraciones donde cada conexión refleja un grado de similitud.
Algoritmo TextRank: Luego se aplica el algoritmo TextRank a esta red de oraciones. TextRank es un algoritmo de clasificación que asigna una puntuación de importancia a cada oración basada en sus relaciones con otras oraciones. Cuantas más conexiones tenga una oración, y cuanto más fuertes sean esas conexiones, mayor será su clasificación.
Generación del Resumen: Finalmente, utilizando las oraciones clasificadas del algoritmo TextRank, se seleccionan las oraciones con las clasificaciones más altas para formar un resumen. Estas oraciones se eligen porque se consideran las más importantes y representativas de las ideas principales del texto original.

Siguiendo meticulosamente estos pasos, la resumición extractiva puede condensar eficazmente un cuerpo grande de texto en una versión más corta y manejable que aún retiene toda la información clave y las ideas principales. Este método no solo es sencillo de implementar, sino que también es altamente efectivo, lo que lo convierte en una opción popular en diversas aplicaciones como la agregación de noticias, la gestión de documentos y la investigación académica.

Técnicas Avanzadas

Aunque este script utiliza una forma básica del algoritmo TextRank para la resumición extractiva, se pueden emplear técnicas más avanzadas para obtener mejores resultados. Estas técnicas avanzadas proporcionan una comprensión más profunda del texto y pueden mejorar significativamente la calidad de la resumición. Algunas de estas técnicas incluyen:

Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave. Este método descompone el texto en un conjunto de conceptos que representan el significado subyacente, lo que puede ayudar a seleccionar las oraciones más representativas para la resumición.
Aprendizaje Supervisado: Utilizar datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para la resumición. Este enfoque implica crear un conjunto de datos de resúmenes de texto y entrenar un modelo para reconocer patrones y características que hacen que ciertas oraciones sean más importantes que otras. El modelo luego puede aplicar este conocimiento a nuevos textos, mejorando la precisión y relevancia de los resúmenes producidos.

Estas técnicas avanzadas ofrecen ventajas únicas para extraer oraciones clave de un texto y generar un resumen conciso. Al aprovechar métodos como LSA y el aprendizaje supervisado, se puede lograr una comprensión más matizada y completa de las ideas principales del texto. Comprender e implementar estos métodos puede mejorar la calidad y coherencia de los resúmenes generados, haciéndolos más útiles e informativos para el usuario final.

Limitaciones:

Coherencia: Los resúmenes extractivos pueden carecer de coherencia y fluidez, ya que las oraciones se seleccionan de forma independiente. Esto significa que el flujo de ideas puede verse interrumpido, haciendo que el resumen sea más difícil de leer y entender.
Redundancia: Los métodos extractivos pueden incluir información redundante si se seleccionan oraciones similares. Esto puede llevar a la repetición de ideas, lo que reduce la eficiencia del resumen.
Abstracción Limitada: La resumición extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. Se basa únicamente en el texto original, lo que puede ser una desventaja significativa cuando se intenta capturar la esencia de material complejo.

A pesar de estas limitaciones, la resumición extractiva sigue siendo una herramienta valiosa para generar rápidamente resúmenes concisos a partir de textos más largos. Proporciona una base sólida para comprender técnicas de resumición más avanzadas.

Además, puede ser particularmente útil en escenarios donde el tiempo es esencial y se necesita una visión rápida antes de profundizar en el material. Además, la resumición extractiva puede servir como un paso preliminar hacia métodos más avanzados, como la resumición abstractiva, al ofrecer una versión condensada preliminar del texto.

Latent Semantic Analysis (LSA)

Latent Semantic Analysis (LSA) es una técnica avanzada de aprendizaje no supervisado que desempeña un papel crucial en la comprensión de significados y patrones más profundos dentro de un cuerpo de texto. A diferencia de métodos más simples que se basan únicamente en la frecuencia de términos, LSA tiene como objetivo capturar la estructura subyacente y latente del texto. Esto se logra a través de un proceso matemático conocido como Descomposición en Valores Singulares (SVD).

La Descomposición en Valores Singulares (SVD) es un componente clave de LSA. Involucra la descomposición de una matriz de términos y documentos, que es una representación matemática del texto donde las filas corresponden a términos y las columnas a documentos. Al realizar SVD, la matriz se descompone en tres matrices más pequeñas. Esta descomposición ayuda a reducir las dimensiones de los datos, permitiendo que LSA identifique patrones intrincados en las relaciones entre términos y documentos que pueden no ser evidentes de inmediato.

La esencia de LSA radica en su capacidad para detectar conexiones más profundas y ocultas dentro del texto. Al descubrir estas estructuras latentes, LSA puede determinar las oraciones más significativas e importantes en un texto. Este proceso proporciona una comprensión más matizada del contenido, lo cual puede ser particularmente útil en varias aplicaciones como la recuperación de información, la resumición de texto y el análisis semántico.

Por ejemplo, en la recuperación de información, LSA puede mejorar la precisión de los resultados de búsqueda al comprender el contexto y el significado detrás de los términos de búsqueda. En la resumición de texto, puede identificar oraciones clave que mejor representan las ideas principales del texto, creando así un resumen conciso. En el análisis semántico, LSA puede ayudar a comprender las relaciones entre diferentes conceptos y términos dentro del texto, proporcionando una visión más profunda del contenido.

En resumen, LSA es una herramienta poderosa que va más allá del análisis superficial para descubrir los significados y patrones ocultos dentro de un texto. Al aprovechar técnicas matemáticas como SVD, permite una comprensión más sofisticada y matizada de los datos textuales, lo que la hace invaluable para una variedad de aplicaciones que requieren un análisis semántico profundo.

Ejemplo:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Este ejemplo de código es un ejemplo de cómo realizar Análisis Semántico Latente (LSA) en una colección de documentos de texto.

Aquí tienes una explicación paso a paso y ampliación del código:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

Esta sección inicializa una lista de documentos de texto de muestra. Cada documento es una oración simple.

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

Aquí, se utiliza el CountVectorizer de scikit-learn para crear una matriz de términos y documentos. Esta matriz está codificada en formato one-hot, lo que significa que cada elemento de la matriz representa la presencia (1) o ausencia (0) de un término en un documento. El método fit_transform se usa para aprender el diccionario de vocabulario y devolver la matriz de términos y documentos.

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

En este segmento, se utiliza la clase TruncatedSVD de scikit-learn para realizar la Descomposición en Valores Singulares (SVD) en la matriz de términos y documentos. SVD es una técnica matemática utilizada para reducir el número de dimensiones en la matriz. Aquí, el número de dimensiones se reduce a 2 para facilitar la visualización. El método fit_transform se aplica a la matriz de términos y documentos para obtener la representación en dimensiones reducidas.

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

Esta sección extrae los términos del vectorizador y los componentes del modelo SVD. El método get_feature_names_out proporciona la lista de vocabulario de términos, y svd.components_ proporciona la matriz de términos y temas (representación reducida de los términos).

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Finalmente, el código imprime los resultados, incluida la lista de términos, las representaciones reducidas de los documentos y las representaciones reducidas de los términos. La lsa_matrix contiene la representación reducida de los documentos (temas), y lsa_topics contiene la representación reducida de los términos.

Aprendizaje Supervisado

El aprendizaje supervisado es una técnica fundamental en el campo del aprendizaje automático donde un modelo se entrena utilizando datos de entrenamiento etiquetados. En el contexto de la resumición de texto, esto implica enseñar a un modelo de aprendizaje automático a puntuar y seleccionar oraciones basadas en su relevancia e importancia para la resumición. Los datos de entrenamiento etiquetados sirven como guía, ayudando al modelo a aprender los patrones y características que indican oraciones importantes.

Este enfoque puede aprovechar una variedad de características para mejorar su efectividad. Por ejemplo, la frecuencia de términos puede indicar con qué frecuencia aparecen términos importantes en una oración, la posición de la oración puede ayudar a identificar oraciones que probablemente sean introducciones o conclusiones, y la similitud semántica puede medir qué tan relacionada está una oración con el tema principal o el tema del texto.

Para implementar el aprendizaje supervisado en la resumición, se emplean varios algoritmos comunes. La regresión logística es un método estadístico que se puede usar para modelar la probabilidad de que una oración sea importante. Las máquinas de soporte vectorial (SVM) son otra opción popular, conocidas por su capacidad para clasificar oraciones encontrando el hiperplano óptimo que mejor separa las oraciones importantes de las no importantes. Las redes neuronales, especialmente los modelos de aprendizaje profundo, también han mostrado gran promesa debido a su capacidad para aprender patrones complejos a través de múltiples capas de abstracción.

Sin embargo, el aprendizaje supervisado presenta sus propios desafíos. Un obstáculo significativo es la necesidad de un conjunto de datos etiquetados donde las oraciones estén anotadas con su importancia. Crear dicho conjunto de datos puede ser tanto laborioso como costoso, ya que a menudo requiere que anotadores humanos evalúen y etiqueten cuidadosamente cada oración. A pesar de esto, la inversión puede valer la pena porque el uso de datos etiquetados generalmente resulta en modelos de resumición más precisos y confiables, lo que puede mejorar significativamente la calidad de los resúmenes generados.

Ejemplo:

# Sample text and summaries (labeled data)
text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."  # Important sentences are included

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

# Train a supervised learning model (Logistic Regression example)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

# New text for summarization
new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

# Predict important sentences using the trained model
predicted_important_indices = model.predict(new_X)

# Generate summary using predicted important sentences
summary = []
for i, sentence in enumerate(new_text.split(".")):
  if predicted_important_indices[i]:
    summary.append(sentence)

print("Summary:", " ".join(summary))

Este fragmento de código describe un enfoque integral para crear un resumidor de texto utilizando aprendizaje supervisado. A continuación se presenta una explicación detallada de cada paso:

1. Texto de Muestra y Resúmenes (Datos Etiquetados)

El código comienza definiendo un texto de muestra y su resumen correspondiente. El resumen incluye las oraciones consideradas importantes del texto de muestra.

text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."

En este ejemplo, el texto contiene tres oraciones, y el resumen incluye dos de estas oraciones. Estos datos etiquetados sirven como la verdad fundamental para entrenar el modelo.

2. Preprocesamiento del Texto

El siguiente paso implica el preprocesamiento del texto, que típicamente incluye tokenización, eliminación de palabras vacías y posiblemente stemming o lematización. Sin embargo, el código real del preprocesamiento no se proporciona aquí y está indicado por un marcador de posición.

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

3. Ingeniería de Características

La ingeniería de características implica extraer características relevantes del texto que pueden ayudar a identificar oraciones importantes. Las características comunes incluyen la frecuencia de términos, la posición de la oración, la longitud de la oración y la similitud semántica. Nuevamente, el código real de ingeniería de características se omite y está marcado por un marcador de posición.

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

4. Preparar Datos de Entrenamiento

Las características extraídas del texto se utilizan para crear los datos de entrenamiento. Se asignan etiquetas a cada oración indicando si es importante (1) o no importante (0).

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

5. Entrenar un Modelo de Aprendizaje Supervisado

Se utiliza un modelo de Regresión Logística de la biblioteca scikit-learn como el modelo de aprendizaje supervisado. El modelo se entrena utilizando las características y etiquetas preparadas en el paso anterior.

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

6. Procesar Nuevo Texto para Resumir

Para resumir un nuevo texto, debe pasar por los mismos pasos de preprocesamiento e ingeniería de características que los datos de entrenamiento. El nuevo texto preprocesado y con ingeniería de características se utiliza luego para predecir qué oraciones son importantes.

new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

7. Predecir Oraciones Importantes

El modelo entrenado predice las oraciones importantes del nuevo texto en función de las características.

predicted_important_indices = model.predict(new_X)

8. Generar Resumen

El resumen se genera seleccionando las oraciones del nuevo texto que el modelo predijo como importantes. Estas oraciones se concatenan para formar el resumen final.

summary = []
for i, sentence in enumerate(new_text.split(".")):
    if predicted_important_indices[i]:
        summary.append(sentence)

print("Summary:", " ".join(summary))

Flujo de Trabajo General

Definir Datos de Muestra: Especificar el texto y su resumen para crear datos etiquetados.
Preprocesar Texto: Tokenizar, eliminar palabras vacías y realizar otras tareas de preprocesamiento.
Ingeniería de Características: Extraer características como la frecuencia de términos y la posición de la oración.
Preparar Datos de Entrenamiento: Utilizar las características y etiquetas para crear el conjunto de datos de entrenamiento.
Entrenar el Modelo: Entrenar un modelo de Regresión Logística utilizando los datos de entrenamiento.
Procesar Nuevo Texto: Aplicar preprocesamiento e ingeniería de características al nuevo texto.
Predecir Oraciones Importantes: Utilizar el modelo entrenado para predecir oraciones importantes.
Generar Resumen: Seleccionar y concatenar las oraciones importantes para formar el resumen.

Este enfoque integral proporciona un método estructurado para desarrollar un resumidor de texto utilizando técnicas de aprendizaje supervisado. Los marcadores de posición indican dónde se deben implementar los pasos específicos de preprocesamiento e ingeniería de características, permitiendo la personalización según los requisitos específicos del texto y la tarea de resumen.

8.1.4 Ventajas y Limitaciones de la Resumación Extractiva

La resumación extractiva es una técnica en la que se seleccionan frases o sentencias clave del texto fuente para crear un resumen. Este enfoque contrasta con la resumación abstractive, donde se generan nuevas frases para transmitir las ideas principales del texto. A continuación, detallamos las ventajas y limitaciones de la resumación extractiva.

Ventajas:

Simplicidad: Una de las principales ventajas de la resumación extractiva es su implementación sencilla. El método no requiere recursos lingüísticos extensivos ni la comprensión de la semántica subyacente del texto. Mediante el uso de técnicas estadísticas básicas o algoritmos simples de aprendizaje automático, se pueden identificar y extraer las oraciones clave para formar un resumen.
Eficiencia: Los métodos de resumación extractiva son computacionalmente eficientes en comparación con sus contrapartes abstractivas. Dado que el proceso implica seleccionar oraciones existentes en lugar de generar contenido nuevo, requiere menos poder computacional y puede manejar conjuntos de datos grandes de manera efectiva. Esto hace que la resumación extractiva sea adecuada para aplicaciones en tiempo real donde se necesita una respuesta rápida.
Preservación del Texto Original: Como el resumen consiste en oraciones directamente tomadas del texto fuente, se minimiza el riesgo de introducir errores o malas interpretaciones. Esto asegura un alto nivel de precisión y fidelidad al contenido original, lo cual es particularmente importante en contextos donde la precisión es crítica, como en documentos legales o médicos.

Limitaciones:

Coherencia: Una limitación significativa de la resumación extractiva es que las oraciones seleccionadas pueden no fluir suavemente cuando se combinan en un resumen. Dado que cada oración se elige de manera independiente, el resumen resultante puede carecer de coherencia y progresión lógica, lo que dificulta a los lectores seguir las ideas principales.
Redundancia: Los métodos extractivos a veces pueden incluir información redundante. Si varias oraciones transmiten puntos similares, todas podrían ser seleccionadas, lo que lleva a un resumen extenso que no condensa efectivamente el contenido original. Esta redundancia puede restar claridad y concisión al resumen.
Abstracción Limitada: La resumación extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. El método se basa en la presencia de oraciones clave explícitas en el texto original, que puede no capturar siempre las ideas más críticas, especialmente en documentos más complejos o matizados.

Si bien la resumación extractiva ofrece una forma práctica y eficiente de crear resúmenes, especialmente adecuada para aplicaciones que requieren el procesamiento rápido de grandes volúmenes de texto, no está exenta de inconvenientes. Los desafíos relacionados con la coherencia, la redundancia y la abstracción limitan su efectividad para producir resúmenes fluidos y altamente condensados.

No obstante, sirve como una técnica fundamental que puede mejorarse con métodos más avanzados, como la combinación de enfoques extractivos y abstractivas o la incorporación de modelos de aprendizaje automático entrenados en grandes conjuntos de datos para mejorar la selección de oraciones y la calidad general del resumen.

8.1 Resumen Extractivo

8.1.1 Entendiendo el Resumen Extractivo

Los pasos principales involucrados en el resumen extractivo son:

Preprocesamiento: Este es el paso inicial donde los datos de texto se limpian y preparan para un análisis posterior. Involucra varios sub-pasos, tales como:
- Tokenización: Dividir el texto en palabras o oraciones individuales.
- Eliminación de palabras vacías: Eliminar palabras comunes que no contribuyen mucho al significado (por ejemplo, "y", "el").
- Normalización: Convertir todo el texto a un formato estándar, como poner en minúsculas todas las palabras.
Puntuación de Oraciones: A cada oración en el texto se le asigna una puntuación basada en ciertas características. Estas características pueden incluir:
- Frecuencia de términos: Con qué frecuencia aparecen palabras importantes en la oración.
- Posición de la oración: La posición de la oración en el texto (por ejemplo, las primeras y últimas oraciones de un párrafo suelen ser importantes).
- Similitud con el título: Qué tan estrechamente se alinea la oración con el título o el tema principal del texto.
Selección de Oraciones: Se seleccionan las oraciones con las puntuaciones más altas para su inclusión en el resumen. El objetivo es elegir oraciones que colectivamente representen los puntos más importantes del texto.
Generación de Resumen: Las oraciones seleccionadas se combinan para formar un resumen coherente y conciso. Este paso implica ordenar las oraciones de manera lógica para asegurar que el resumen sea fácil de leer y entender.

8.1.2 Implementación del Resumen Extractivo

Usaremos la biblioteca nltk para implementar un sistema simple de resumen extractivo. Veamos cómo realizar un resumen extractivo en un texto de ejemplo.

Ejemplo: Resumen Extractivo con NLTK

Primero, instala la biblioteca nltk si no lo has hecho ya:

pip install nltk

Ahora, implementemos la resumen extractiva:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx

nltk.download('punkt')
nltk.download('stopwords')

# Sample text
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# Preprocess the text
sentences = sent_tokenize(text)
stop_words = set(stopwords.words('english'))

def preprocess_sentence(sentence):
    words = word_tokenize(sentence.lower())
    words = [word for word in words if word.isalnum() and word not in stop_words]
    return words

# Sentence scoring based on term frequency
def score_sentences(sentences):
    sentence_scores = []
    word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)])

    for sentence in sentences:
        words = preprocess_sentence(sentence)
        sentence_score = sum(word_frequencies[word] for word in words)
        sentence_scores.append((sentence, sentence_score))

    return sentence_scores

# Select top-ranked sentences
def select_sentences(sentence_scores, num_sentences=2):
    sentence_scores.sort(key=lambda x: x[1], reverse=True)
    selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]]
    return selected_sentences

# Generate summary
sentence_scores = score_sentences(sentences)
summary_sentences = select_sentences(sentence_scores)
summary = ' '.join(summary_sentences)

print("Summary:")
print(summary)

Este script de ejemplo demuestra cómo realizar un resumen extractivo utilizando la biblioteca Natural Language Toolkit (nltk).

Aquí hay una explicación paso a paso del script:

Importar Bibliotecas: El script importa varios módulos de la biblioteca nltk, incluyendo sent_tokenize para la tokenización de oraciones, word_tokenize para la tokenización de palabras, stopwords para eliminar palabras comunes que no contribuyen mucho al significado y FreqDist para calcular las frecuencias de las palabras. También importa cosine_distance de nltk.cluster.util, numpy para operaciones numéricas y networkx para algoritmos basados en grafos.
import nltk from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords from nltk.probability import FreqDist from nltk.cluster.util import cosine_distance import numpy as np import networkx as nx
Descargar Recursos de NLTK: El script descarga los recursos necesarios de NLTK, incluyendo el tokenizador 'punkt' y el corpus de 'stopwords'.
nltk.download('punkt') nltk.download('stopwords')
Texto de Ejemplo: Se proporciona un texto de ejemplo para el resumen. Este texto discute el campo del Procesamiento de Lenguaje Natural (PLN) y sus desafíos.
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."""
Preprocesar el Texto: El texto se tokeniza en oraciones utilizando sent_tokenize. Se recuperan las palabras vacías usando stopwords.words('english').
sentences = sent_tokenize(text) stop_words = set(stopwords.words('english'))
Preprocesar Oraciones: Se define una función preprocess_sentence para preprocesar cada oración tokenizándola en palabras, convirtiéndolas a minúsculas y eliminando palabras vacías y caracteres no alfanuméricos.
def preprocess_sentence(sentence): words = word_tokenize(sentence.lower()) words = [word for word in words if word.isalnum() and word not in stop_words] return words
Puntuación de Oraciones Basada en Frecuencia de Términos: Se define una función score_sentences para puntuar cada oración basada en la frecuencia de términos. Calcula las frecuencias de palabras usando FreqDist y suma las frecuencias de las palabras en cada oración para asignar una puntuación.
def score_sentences(sentences): sentence_scores = [] word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)]) for sentence in sentences: words = preprocess_sentence(sentence) sentence_score = sum(word_frequencies[word] for word in words) sentence_scores.append((sentence, sentence_score)) return sentence_scores
Seleccionar las Oraciones Mejor Clasificadas: Se define una función select_sentences para ordenar las oraciones por sus puntuaciones en orden descendente y seleccionar las oraciones mejor clasificadas según un número especificado (num_sentences).
def select_sentences(sentence_scores, num_sentences=2): sentence_scores.sort(key=lambda x: x[1], reverse=True) selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]] return selected_sentences
Generar Resumen: El script llama a score_sentences para puntuar las oraciones y a select_sentences para seleccionar las oraciones mejor clasificadas. Las oraciones seleccionadas se unen para formar el resumen, que se imprime.
sentence_scores = score_sentences(sentences) summary_sentences = select_sentences(sentence_scores) summary = ' '.join(summary_sentences) print("Summary:") print(summary)

Salida:

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between
computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida:

8.1.3 Técnicas Avanzadas de Resumen Extractivo

Además del método simple de frecuencia de términos, existen técnicas más avanzadas para el resumen extractivo, incluyendo:

TextRank: Un algoritmo de clasificación basado en grafos que utiliza la similitud entre oraciones para clasificarlas.
Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave.
Aprendizaje Supervisado: Utilizando datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para el resumen.

Vamos a profundizar en cada una de estas técnicas en más detalle:

TextRank

Las oraciones que son más similares a muchas otras oraciones reciben clasificaciones más altas. Aquí hay una implementación básica de TextRank utilizando la biblioteca networkx:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# NLTK downloads (depending on the environment, 'punkt_tab' may also be required)
nltk.download('punkt')
nltk.download('stopwords')

# Sample text (replace with the reader's input)
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# 1) Sentences and light normalization
sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

# 2) TF-IDF vectorization per sentence
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

# 3) Cosine similarity matrix
sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)          # avoid dominant self-loops

# 4) TextRank with NetworkX (PageRank over the similarity graph)
graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

# 5) Selection of top-ranked sentences
num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

print("Summary:")
print(summary)

Aquí hay un desglose detallado:

1. Importar Bibliotecas

El script comienza importando varias bibliotecas:

nltk: Para tareas de procesamiento de lenguaje natural como tokenización y eliminación de palabras vacías.
numpy: Para operaciones numéricas.
networkx: Para crear y analizar grafos, que se utiliza en el algoritmo TextRank.
sklearn.feature_extraction.text.TfidfVectorizer: Para convertir oraciones en vectores TF-IDF.
sklearn.metrics.pairwise.cosine_similarity: Para medir la similitud entre vectores de oraciones.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

2. Descargar Recursos de NLTK

Antes de procesar el texto, el script descarga los recursos necesarios para la tokenización y las palabras vacías.

nltk.download('punkt')
nltk.download('stopwords')

3. Texto de Muestra

Se proporciona un texto de muestra para demostrar la resumición extractiva.

text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

4. Tokenización de Oraciones

El texto se divide en oraciones y se cargan las palabras vacías (stopwords) en inglés.

sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

5. Normalización del Texto

Se define una función auxiliar para normalizar las oraciones:

Tokenizar cada oración en palabras.
Convertir todas las palabras a minúsculas.
Eliminar las palabras vacías y los tokens no alfanuméricos.

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

6. Vectorización de Oraciones con TF-IDF

Cada oración normalizada se convierte en un vector TF-IDF. Esto asegura que todas las oraciones estén representadas numéricamente con una longitud de vector igual.

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

7. Construir Matriz de Similitud de Oraciones

sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)

8. Aplicar el Algoritmo TextRank

graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

9. Seleccionar las Mejores Oraciones para el Resumen

Las oraciones se ordenan por sus puntuaciones de PageRank, y se seleccionan las dos mejores para el resumen.

num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

10. Imprimir el Resumen

Finalmente, las oraciones seleccionadas se combinan y se muestran como el resumen extractivo.

print("Summary:")
print(summary)

Ejemplo de Salida

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida

El resumen consiste en las dos oraciones con las puntuaciones de PageRank más altas. Estas oraciones se consideran las más centrales e informativas con respecto al texto completo.

Resumen de los Pasos Clave:

Preprocesamiento: Este paso inicial implica descomponer el texto en partes más pequeñas. Específicamente, incluye la tokenización del texto en oraciones y palabras individuales. Además, es crucial eliminar las palabras vacías (stopwords), que son palabras comunes que no contribuyen mucho al significado del texto, como "and", "the" y "is".
Matriz de Similitud: En este paso, se construye una matriz de similitud. Esta matriz se basa en la distancia coseno entre oraciones, que mide qué tan similar es cada oración con las demás. El resultado es una red de oraciones donde cada conexión refleja un grado de similitud.
Algoritmo TextRank: Luego se aplica el algoritmo TextRank a esta red de oraciones. TextRank es un algoritmo de clasificación que asigna una puntuación de importancia a cada oración basada en sus relaciones con otras oraciones. Cuantas más conexiones tenga una oración, y cuanto más fuertes sean esas conexiones, mayor será su clasificación.
Generación del Resumen: Finalmente, utilizando las oraciones clasificadas del algoritmo TextRank, se seleccionan las oraciones con las clasificaciones más altas para formar un resumen. Estas oraciones se eligen porque se consideran las más importantes y representativas de las ideas principales del texto original.

Técnicas Avanzadas

Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave. Este método descompone el texto en un conjunto de conceptos que representan el significado subyacente, lo que puede ayudar a seleccionar las oraciones más representativas para la resumición.
Aprendizaje Supervisado: Utilizar datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para la resumición. Este enfoque implica crear un conjunto de datos de resúmenes de texto y entrenar un modelo para reconocer patrones y características que hacen que ciertas oraciones sean más importantes que otras. El modelo luego puede aplicar este conocimiento a nuevos textos, mejorando la precisión y relevancia de los resúmenes producidos.

Limitaciones:

Coherencia: Los resúmenes extractivos pueden carecer de coherencia y fluidez, ya que las oraciones se seleccionan de forma independiente. Esto significa que el flujo de ideas puede verse interrumpido, haciendo que el resumen sea más difícil de leer y entender.
Redundancia: Los métodos extractivos pueden incluir información redundante si se seleccionan oraciones similares. Esto puede llevar a la repetición de ideas, lo que reduce la eficiencia del resumen.
Abstracción Limitada: La resumición extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. Se basa únicamente en el texto original, lo que puede ser una desventaja significativa cuando se intenta capturar la esencia de material complejo.

Latent Semantic Analysis (LSA)

Ejemplo:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Este ejemplo de código es un ejemplo de cómo realizar Análisis Semántico Latente (LSA) en una colección de documentos de texto.

Aquí tienes una explicación paso a paso y ampliación del código:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

Esta sección inicializa una lista de documentos de texto de muestra. Cada documento es una oración simple.

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Aprendizaje Supervisado

Ejemplo:

# Sample text and summaries (labeled data)
text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."  # Important sentences are included

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

# Train a supervised learning model (Logistic Regression example)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

# New text for summarization
new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

# Predict important sentences using the trained model
predicted_important_indices = model.predict(new_X)

# Generate summary using predicted important sentences
summary = []
for i, sentence in enumerate(new_text.split(".")):
  if predicted_important_indices[i]:
    summary.append(sentence)

print("Summary:", " ".join(summary))

Este fragmento de código describe un enfoque integral para crear un resumidor de texto utilizando aprendizaje supervisado. A continuación se presenta una explicación detallada de cada paso:

1. Texto de Muestra y Resúmenes (Datos Etiquetados)

El código comienza definiendo un texto de muestra y su resumen correspondiente. El resumen incluye las oraciones consideradas importantes del texto de muestra.

text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."

En este ejemplo, el texto contiene tres oraciones, y el resumen incluye dos de estas oraciones. Estos datos etiquetados sirven como la verdad fundamental para entrenar el modelo.

2. Preprocesamiento del Texto

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

3. Ingeniería de Características

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

4. Preparar Datos de Entrenamiento

Las características extraídas del texto se utilizan para crear los datos de entrenamiento. Se asignan etiquetas a cada oración indicando si es importante (1) o no importante (0).

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

5. Entrenar un Modelo de Aprendizaje Supervisado

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

6. Procesar Nuevo Texto para Resumir

new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

7. Predecir Oraciones Importantes

El modelo entrenado predice las oraciones importantes del nuevo texto en función de las características.

predicted_important_indices = model.predict(new_X)

8. Generar Resumen

El resumen se genera seleccionando las oraciones del nuevo texto que el modelo predijo como importantes. Estas oraciones se concatenan para formar el resumen final.

summary = []
for i, sentence in enumerate(new_text.split(".")):
    if predicted_important_indices[i]:
        summary.append(sentence)

print("Summary:", " ".join(summary))

Flujo de Trabajo General

Definir Datos de Muestra: Especificar el texto y su resumen para crear datos etiquetados.
Preprocesar Texto: Tokenizar, eliminar palabras vacías y realizar otras tareas de preprocesamiento.
Ingeniería de Características: Extraer características como la frecuencia de términos y la posición de la oración.
Preparar Datos de Entrenamiento: Utilizar las características y etiquetas para crear el conjunto de datos de entrenamiento.
Entrenar el Modelo: Entrenar un modelo de Regresión Logística utilizando los datos de entrenamiento.
Procesar Nuevo Texto: Aplicar preprocesamiento e ingeniería de características al nuevo texto.
Predecir Oraciones Importantes: Utilizar el modelo entrenado para predecir oraciones importantes.
Generar Resumen: Seleccionar y concatenar las oraciones importantes para formar el resumen.

8.1.4 Ventajas y Limitaciones de la Resumación Extractiva

Ventajas:

Simplicidad: Una de las principales ventajas de la resumación extractiva es su implementación sencilla. El método no requiere recursos lingüísticos extensivos ni la comprensión de la semántica subyacente del texto. Mediante el uso de técnicas estadísticas básicas o algoritmos simples de aprendizaje automático, se pueden identificar y extraer las oraciones clave para formar un resumen.
Eficiencia: Los métodos de resumación extractiva son computacionalmente eficientes en comparación con sus contrapartes abstractivas. Dado que el proceso implica seleccionar oraciones existentes en lugar de generar contenido nuevo, requiere menos poder computacional y puede manejar conjuntos de datos grandes de manera efectiva. Esto hace que la resumación extractiva sea adecuada para aplicaciones en tiempo real donde se necesita una respuesta rápida.
Preservación del Texto Original: Como el resumen consiste en oraciones directamente tomadas del texto fuente, se minimiza el riesgo de introducir errores o malas interpretaciones. Esto asegura un alto nivel de precisión y fidelidad al contenido original, lo cual es particularmente importante en contextos donde la precisión es crítica, como en documentos legales o médicos.

Limitaciones:

Coherencia: Una limitación significativa de la resumación extractiva es que las oraciones seleccionadas pueden no fluir suavemente cuando se combinan en un resumen. Dado que cada oración se elige de manera independiente, el resumen resultante puede carecer de coherencia y progresión lógica, lo que dificulta a los lectores seguir las ideas principales.
Redundancia: Los métodos extractivos a veces pueden incluir información redundante. Si varias oraciones transmiten puntos similares, todas podrían ser seleccionadas, lo que lleva a un resumen extenso que no condensa efectivamente el contenido original. Esta redundancia puede restar claridad y concisión al resumen.
Abstracción Limitada: La resumación extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. El método se basa en la presencia de oraciones clave explícitas en el texto original, que puede no capturar siempre las ideas más críticas, especialmente en documentos más complejos o matizados.

8.1 Resumen Extractivo

8.1.1 Entendiendo el Resumen Extractivo

Los pasos principales involucrados en el resumen extractivo son:

Preprocesamiento: Este es el paso inicial donde los datos de texto se limpian y preparan para un análisis posterior. Involucra varios sub-pasos, tales como:
- Tokenización: Dividir el texto en palabras o oraciones individuales.
- Eliminación de palabras vacías: Eliminar palabras comunes que no contribuyen mucho al significado (por ejemplo, "y", "el").
- Normalización: Convertir todo el texto a un formato estándar, como poner en minúsculas todas las palabras.
Puntuación de Oraciones: A cada oración en el texto se le asigna una puntuación basada en ciertas características. Estas características pueden incluir:
- Frecuencia de términos: Con qué frecuencia aparecen palabras importantes en la oración.
- Posición de la oración: La posición de la oración en el texto (por ejemplo, las primeras y últimas oraciones de un párrafo suelen ser importantes).
- Similitud con el título: Qué tan estrechamente se alinea la oración con el título o el tema principal del texto.
Selección de Oraciones: Se seleccionan las oraciones con las puntuaciones más altas para su inclusión en el resumen. El objetivo es elegir oraciones que colectivamente representen los puntos más importantes del texto.
Generación de Resumen: Las oraciones seleccionadas se combinan para formar un resumen coherente y conciso. Este paso implica ordenar las oraciones de manera lógica para asegurar que el resumen sea fácil de leer y entender.

8.1.2 Implementación del Resumen Extractivo

Usaremos la biblioteca nltk para implementar un sistema simple de resumen extractivo. Veamos cómo realizar un resumen extractivo en un texto de ejemplo.

Ejemplo: Resumen Extractivo con NLTK

Primero, instala la biblioteca nltk si no lo has hecho ya:

pip install nltk

Ahora, implementemos la resumen extractiva:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx

nltk.download('punkt')
nltk.download('stopwords')

# Sample text
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# Preprocess the text
sentences = sent_tokenize(text)
stop_words = set(stopwords.words('english'))

def preprocess_sentence(sentence):
    words = word_tokenize(sentence.lower())
    words = [word for word in words if word.isalnum() and word not in stop_words]
    return words

# Sentence scoring based on term frequency
def score_sentences(sentences):
    sentence_scores = []
    word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)])

    for sentence in sentences:
        words = preprocess_sentence(sentence)
        sentence_score = sum(word_frequencies[word] for word in words)
        sentence_scores.append((sentence, sentence_score))

    return sentence_scores

# Select top-ranked sentences
def select_sentences(sentence_scores, num_sentences=2):
    sentence_scores.sort(key=lambda x: x[1], reverse=True)
    selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]]
    return selected_sentences

# Generate summary
sentence_scores = score_sentences(sentences)
summary_sentences = select_sentences(sentence_scores)
summary = ' '.join(summary_sentences)

print("Summary:")
print(summary)

Este script de ejemplo demuestra cómo realizar un resumen extractivo utilizando la biblioteca Natural Language Toolkit (nltk).

Aquí hay una explicación paso a paso del script:

Importar Bibliotecas: El script importa varios módulos de la biblioteca nltk, incluyendo sent_tokenize para la tokenización de oraciones, word_tokenize para la tokenización de palabras, stopwords para eliminar palabras comunes que no contribuyen mucho al significado y FreqDist para calcular las frecuencias de las palabras. También importa cosine_distance de nltk.cluster.util, numpy para operaciones numéricas y networkx para algoritmos basados en grafos.
import nltk from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords from nltk.probability import FreqDist from nltk.cluster.util import cosine_distance import numpy as np import networkx as nx
Descargar Recursos de NLTK: El script descarga los recursos necesarios de NLTK, incluyendo el tokenizador 'punkt' y el corpus de 'stopwords'.
nltk.download('punkt') nltk.download('stopwords')
Texto de Ejemplo: Se proporciona un texto de ejemplo para el resumen. Este texto discute el campo del Procesamiento de Lenguaje Natural (PLN) y sus desafíos.
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."""
Preprocesar el Texto: El texto se tokeniza en oraciones utilizando sent_tokenize. Se recuperan las palabras vacías usando stopwords.words('english').
sentences = sent_tokenize(text) stop_words = set(stopwords.words('english'))
Preprocesar Oraciones: Se define una función preprocess_sentence para preprocesar cada oración tokenizándola en palabras, convirtiéndolas a minúsculas y eliminando palabras vacías y caracteres no alfanuméricos.
def preprocess_sentence(sentence): words = word_tokenize(sentence.lower()) words = [word for word in words if word.isalnum() and word not in stop_words] return words
Puntuación de Oraciones Basada en Frecuencia de Términos: Se define una función score_sentences para puntuar cada oración basada en la frecuencia de términos. Calcula las frecuencias de palabras usando FreqDist y suma las frecuencias de las palabras en cada oración para asignar una puntuación.
def score_sentences(sentences): sentence_scores = [] word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)]) for sentence in sentences: words = preprocess_sentence(sentence) sentence_score = sum(word_frequencies[word] for word in words) sentence_scores.append((sentence, sentence_score)) return sentence_scores
Seleccionar las Oraciones Mejor Clasificadas: Se define una función select_sentences para ordenar las oraciones por sus puntuaciones en orden descendente y seleccionar las oraciones mejor clasificadas según un número especificado (num_sentences).
def select_sentences(sentence_scores, num_sentences=2): sentence_scores.sort(key=lambda x: x[1], reverse=True) selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]] return selected_sentences
Generar Resumen: El script llama a score_sentences para puntuar las oraciones y a select_sentences para seleccionar las oraciones mejor clasificadas. Las oraciones seleccionadas se unen para formar el resumen, que se imprime.
sentence_scores = score_sentences(sentences) summary_sentences = select_sentences(sentence_scores) summary = ' '.join(summary_sentences) print("Summary:") print(summary)

Salida:

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between
computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida:

8.1.3 Técnicas Avanzadas de Resumen Extractivo

Además del método simple de frecuencia de términos, existen técnicas más avanzadas para el resumen extractivo, incluyendo:

TextRank: Un algoritmo de clasificación basado en grafos que utiliza la similitud entre oraciones para clasificarlas.
Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave.
Aprendizaje Supervisado: Utilizando datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para el resumen.

Vamos a profundizar en cada una de estas técnicas en más detalle:

TextRank

Las oraciones que son más similares a muchas otras oraciones reciben clasificaciones más altas. Aquí hay una implementación básica de TextRank utilizando la biblioteca networkx:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# NLTK downloads (depending on the environment, 'punkt_tab' may also be required)
nltk.download('punkt')
nltk.download('stopwords')

# Sample text (replace with the reader's input)
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# 1) Sentences and light normalization
sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

# 2) TF-IDF vectorization per sentence
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

# 3) Cosine similarity matrix
sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)          # avoid dominant self-loops

# 4) TextRank with NetworkX (PageRank over the similarity graph)
graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

# 5) Selection of top-ranked sentences
num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

print("Summary:")
print(summary)

Aquí hay un desglose detallado:

1. Importar Bibliotecas

El script comienza importando varias bibliotecas:

nltk: Para tareas de procesamiento de lenguaje natural como tokenización y eliminación de palabras vacías.
numpy: Para operaciones numéricas.
networkx: Para crear y analizar grafos, que se utiliza en el algoritmo TextRank.
sklearn.feature_extraction.text.TfidfVectorizer: Para convertir oraciones en vectores TF-IDF.
sklearn.metrics.pairwise.cosine_similarity: Para medir la similitud entre vectores de oraciones.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

2. Descargar Recursos de NLTK

Antes de procesar el texto, el script descarga los recursos necesarios para la tokenización y las palabras vacías.

nltk.download('punkt')
nltk.download('stopwords')

3. Texto de Muestra

Se proporciona un texto de muestra para demostrar la resumición extractiva.

text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

4. Tokenización de Oraciones

El texto se divide en oraciones y se cargan las palabras vacías (stopwords) en inglés.

sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

5. Normalización del Texto

Se define una función auxiliar para normalizar las oraciones:

Tokenizar cada oración en palabras.
Convertir todas las palabras a minúsculas.
Eliminar las palabras vacías y los tokens no alfanuméricos.

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

6. Vectorización de Oraciones con TF-IDF

Cada oración normalizada se convierte en un vector TF-IDF. Esto asegura que todas las oraciones estén representadas numéricamente con una longitud de vector igual.

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

7. Construir Matriz de Similitud de Oraciones

sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)

8. Aplicar el Algoritmo TextRank

graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

9. Seleccionar las Mejores Oraciones para el Resumen

Las oraciones se ordenan por sus puntuaciones de PageRank, y se seleccionan las dos mejores para el resumen.

num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

10. Imprimir el Resumen

Finalmente, las oraciones seleccionadas se combinan y se muestran como el resumen extractivo.

print("Summary:")
print(summary)

Ejemplo de Salida

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida

El resumen consiste en las dos oraciones con las puntuaciones de PageRank más altas. Estas oraciones se consideran las más centrales e informativas con respecto al texto completo.

Resumen de los Pasos Clave:

Preprocesamiento: Este paso inicial implica descomponer el texto en partes más pequeñas. Específicamente, incluye la tokenización del texto en oraciones y palabras individuales. Además, es crucial eliminar las palabras vacías (stopwords), que son palabras comunes que no contribuyen mucho al significado del texto, como "and", "the" y "is".
Matriz de Similitud: En este paso, se construye una matriz de similitud. Esta matriz se basa en la distancia coseno entre oraciones, que mide qué tan similar es cada oración con las demás. El resultado es una red de oraciones donde cada conexión refleja un grado de similitud.
Algoritmo TextRank: Luego se aplica el algoritmo TextRank a esta red de oraciones. TextRank es un algoritmo de clasificación que asigna una puntuación de importancia a cada oración basada en sus relaciones con otras oraciones. Cuantas más conexiones tenga una oración, y cuanto más fuertes sean esas conexiones, mayor será su clasificación.
Generación del Resumen: Finalmente, utilizando las oraciones clasificadas del algoritmo TextRank, se seleccionan las oraciones con las clasificaciones más altas para formar un resumen. Estas oraciones se eligen porque se consideran las más importantes y representativas de las ideas principales del texto original.

Técnicas Avanzadas

Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave. Este método descompone el texto en un conjunto de conceptos que representan el significado subyacente, lo que puede ayudar a seleccionar las oraciones más representativas para la resumición.
Aprendizaje Supervisado: Utilizar datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para la resumición. Este enfoque implica crear un conjunto de datos de resúmenes de texto y entrenar un modelo para reconocer patrones y características que hacen que ciertas oraciones sean más importantes que otras. El modelo luego puede aplicar este conocimiento a nuevos textos, mejorando la precisión y relevancia de los resúmenes producidos.

Limitaciones:

Coherencia: Los resúmenes extractivos pueden carecer de coherencia y fluidez, ya que las oraciones se seleccionan de forma independiente. Esto significa que el flujo de ideas puede verse interrumpido, haciendo que el resumen sea más difícil de leer y entender.
Redundancia: Los métodos extractivos pueden incluir información redundante si se seleccionan oraciones similares. Esto puede llevar a la repetición de ideas, lo que reduce la eficiencia del resumen.
Abstracción Limitada: La resumición extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. Se basa únicamente en el texto original, lo que puede ser una desventaja significativa cuando se intenta capturar la esencia de material complejo.

Latent Semantic Analysis (LSA)

Ejemplo:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Este ejemplo de código es un ejemplo de cómo realizar Análisis Semántico Latente (LSA) en una colección de documentos de texto.

Aquí tienes una explicación paso a paso y ampliación del código:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

Esta sección inicializa una lista de documentos de texto de muestra. Cada documento es una oración simple.

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Aprendizaje Supervisado

Ejemplo:

# Sample text and summaries (labeled data)
text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."  # Important sentences are included

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

# Train a supervised learning model (Logistic Regression example)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

# New text for summarization
new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

# Predict important sentences using the trained model
predicted_important_indices = model.predict(new_X)

# Generate summary using predicted important sentences
summary = []
for i, sentence in enumerate(new_text.split(".")):
  if predicted_important_indices[i]:
    summary.append(sentence)

print("Summary:", " ".join(summary))

Este fragmento de código describe un enfoque integral para crear un resumidor de texto utilizando aprendizaje supervisado. A continuación se presenta una explicación detallada de cada paso:

1. Texto de Muestra y Resúmenes (Datos Etiquetados)

El código comienza definiendo un texto de muestra y su resumen correspondiente. El resumen incluye las oraciones consideradas importantes del texto de muestra.

text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."

En este ejemplo, el texto contiene tres oraciones, y el resumen incluye dos de estas oraciones. Estos datos etiquetados sirven como la verdad fundamental para entrenar el modelo.

2. Preprocesamiento del Texto

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

3. Ingeniería de Características

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

4. Preparar Datos de Entrenamiento

Las características extraídas del texto se utilizan para crear los datos de entrenamiento. Se asignan etiquetas a cada oración indicando si es importante (1) o no importante (0).

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

5. Entrenar un Modelo de Aprendizaje Supervisado

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

6. Procesar Nuevo Texto para Resumir

new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

7. Predecir Oraciones Importantes

El modelo entrenado predice las oraciones importantes del nuevo texto en función de las características.

predicted_important_indices = model.predict(new_X)

8. Generar Resumen

El resumen se genera seleccionando las oraciones del nuevo texto que el modelo predijo como importantes. Estas oraciones se concatenan para formar el resumen final.

summary = []
for i, sentence in enumerate(new_text.split(".")):
    if predicted_important_indices[i]:
        summary.append(sentence)

print("Summary:", " ".join(summary))

Flujo de Trabajo General

Definir Datos de Muestra: Especificar el texto y su resumen para crear datos etiquetados.
Preprocesar Texto: Tokenizar, eliminar palabras vacías y realizar otras tareas de preprocesamiento.
Ingeniería de Características: Extraer características como la frecuencia de términos y la posición de la oración.
Preparar Datos de Entrenamiento: Utilizar las características y etiquetas para crear el conjunto de datos de entrenamiento.
Entrenar el Modelo: Entrenar un modelo de Regresión Logística utilizando los datos de entrenamiento.
Procesar Nuevo Texto: Aplicar preprocesamiento e ingeniería de características al nuevo texto.
Predecir Oraciones Importantes: Utilizar el modelo entrenado para predecir oraciones importantes.
Generar Resumen: Seleccionar y concatenar las oraciones importantes para formar el resumen.

8.1.4 Ventajas y Limitaciones de la Resumación Extractiva

Ventajas:

Simplicidad: Una de las principales ventajas de la resumación extractiva es su implementación sencilla. El método no requiere recursos lingüísticos extensivos ni la comprensión de la semántica subyacente del texto. Mediante el uso de técnicas estadísticas básicas o algoritmos simples de aprendizaje automático, se pueden identificar y extraer las oraciones clave para formar un resumen.
Eficiencia: Los métodos de resumación extractiva son computacionalmente eficientes en comparación con sus contrapartes abstractivas. Dado que el proceso implica seleccionar oraciones existentes en lugar de generar contenido nuevo, requiere menos poder computacional y puede manejar conjuntos de datos grandes de manera efectiva. Esto hace que la resumación extractiva sea adecuada para aplicaciones en tiempo real donde se necesita una respuesta rápida.
Preservación del Texto Original: Como el resumen consiste en oraciones directamente tomadas del texto fuente, se minimiza el riesgo de introducir errores o malas interpretaciones. Esto asegura un alto nivel de precisión y fidelidad al contenido original, lo cual es particularmente importante en contextos donde la precisión es crítica, como en documentos legales o médicos.

Limitaciones:

Coherencia: Una limitación significativa de la resumación extractiva es que las oraciones seleccionadas pueden no fluir suavemente cuando se combinan en un resumen. Dado que cada oración se elige de manera independiente, el resumen resultante puede carecer de coherencia y progresión lógica, lo que dificulta a los lectores seguir las ideas principales.
Redundancia: Los métodos extractivos a veces pueden incluir información redundante. Si varias oraciones transmiten puntos similares, todas podrían ser seleccionadas, lo que lleva a un resumen extenso que no condensa efectivamente el contenido original. Esta redundancia puede restar claridad y concisión al resumen.
Abstracción Limitada: La resumación extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. El método se basa en la presencia de oraciones clave explícitas en el texto original, que puede no capturar siempre las ideas más críticas, especialmente en documentos más complejos o matizados.

8.1 Resumen Extractivo

8.1.1 Entendiendo el Resumen Extractivo

Los pasos principales involucrados en el resumen extractivo son:

Preprocesamiento: Este es el paso inicial donde los datos de texto se limpian y preparan para un análisis posterior. Involucra varios sub-pasos, tales como:
- Tokenización: Dividir el texto en palabras o oraciones individuales.
- Eliminación de palabras vacías: Eliminar palabras comunes que no contribuyen mucho al significado (por ejemplo, "y", "el").
- Normalización: Convertir todo el texto a un formato estándar, como poner en minúsculas todas las palabras.
Puntuación de Oraciones: A cada oración en el texto se le asigna una puntuación basada en ciertas características. Estas características pueden incluir:
- Frecuencia de términos: Con qué frecuencia aparecen palabras importantes en la oración.
- Posición de la oración: La posición de la oración en el texto (por ejemplo, las primeras y últimas oraciones de un párrafo suelen ser importantes).
- Similitud con el título: Qué tan estrechamente se alinea la oración con el título o el tema principal del texto.
Selección de Oraciones: Se seleccionan las oraciones con las puntuaciones más altas para su inclusión en el resumen. El objetivo es elegir oraciones que colectivamente representen los puntos más importantes del texto.
Generación de Resumen: Las oraciones seleccionadas se combinan para formar un resumen coherente y conciso. Este paso implica ordenar las oraciones de manera lógica para asegurar que el resumen sea fácil de leer y entender.

8.1.2 Implementación del Resumen Extractivo

Usaremos la biblioteca nltk para implementar un sistema simple de resumen extractivo. Veamos cómo realizar un resumen extractivo en un texto de ejemplo.

Ejemplo: Resumen Extractivo con NLTK

Primero, instala la biblioteca nltk si no lo has hecho ya:

pip install nltk

Ahora, implementemos la resumen extractiva:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx

nltk.download('punkt')
nltk.download('stopwords')

# Sample text
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# Preprocess the text
sentences = sent_tokenize(text)
stop_words = set(stopwords.words('english'))

def preprocess_sentence(sentence):
    words = word_tokenize(sentence.lower())
    words = [word for word in words if word.isalnum() and word not in stop_words]
    return words

# Sentence scoring based on term frequency
def score_sentences(sentences):
    sentence_scores = []
    word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)])

    for sentence in sentences:
        words = preprocess_sentence(sentence)
        sentence_score = sum(word_frequencies[word] for word in words)
        sentence_scores.append((sentence, sentence_score))

    return sentence_scores

# Select top-ranked sentences
def select_sentences(sentence_scores, num_sentences=2):
    sentence_scores.sort(key=lambda x: x[1], reverse=True)
    selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]]
    return selected_sentences

# Generate summary
sentence_scores = score_sentences(sentences)
summary_sentences = select_sentences(sentence_scores)
summary = ' '.join(summary_sentences)

print("Summary:")
print(summary)

Este script de ejemplo demuestra cómo realizar un resumen extractivo utilizando la biblioteca Natural Language Toolkit (nltk).

Aquí hay una explicación paso a paso del script:

Importar Bibliotecas: El script importa varios módulos de la biblioteca nltk, incluyendo sent_tokenize para la tokenización de oraciones, word_tokenize para la tokenización de palabras, stopwords para eliminar palabras comunes que no contribuyen mucho al significado y FreqDist para calcular las frecuencias de las palabras. También importa cosine_distance de nltk.cluster.util, numpy para operaciones numéricas y networkx para algoritmos basados en grafos.
import nltk from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords from nltk.probability import FreqDist from nltk.cluster.util import cosine_distance import numpy as np import networkx as nx
Descargar Recursos de NLTK: El script descarga los recursos necesarios de NLTK, incluyendo el tokenizador 'punkt' y el corpus de 'stopwords'.
nltk.download('punkt') nltk.download('stopwords')
Texto de Ejemplo: Se proporciona un texto de ejemplo para el resumen. Este texto discute el campo del Procesamiento de Lenguaje Natural (PLN) y sus desafíos.
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."""
Preprocesar el Texto: El texto se tokeniza en oraciones utilizando sent_tokenize. Se recuperan las palabras vacías usando stopwords.words('english').
sentences = sent_tokenize(text) stop_words = set(stopwords.words('english'))
Preprocesar Oraciones: Se define una función preprocess_sentence para preprocesar cada oración tokenizándola en palabras, convirtiéndolas a minúsculas y eliminando palabras vacías y caracteres no alfanuméricos.
def preprocess_sentence(sentence): words = word_tokenize(sentence.lower()) words = [word for word in words if word.isalnum() and word not in stop_words] return words
Puntuación de Oraciones Basada en Frecuencia de Términos: Se define una función score_sentences para puntuar cada oración basada en la frecuencia de términos. Calcula las frecuencias de palabras usando FreqDist y suma las frecuencias de las palabras en cada oración para asignar una puntuación.
def score_sentences(sentences): sentence_scores = [] word_frequencies = FreqDist([word for sentence in sentences for word in preprocess_sentence(sentence)]) for sentence in sentences: words = preprocess_sentence(sentence) sentence_score = sum(word_frequencies[word] for word in words) sentence_scores.append((sentence, sentence_score)) return sentence_scores
Seleccionar las Oraciones Mejor Clasificadas: Se define una función select_sentences para ordenar las oraciones por sus puntuaciones en orden descendente y seleccionar las oraciones mejor clasificadas según un número especificado (num_sentences).
def select_sentences(sentence_scores, num_sentences=2): sentence_scores.sort(key=lambda x: x[1], reverse=True) selected_sentences = [sentence[0] for sentence in sentence_scores[:num_sentences]] return selected_sentences
Generar Resumen: El script llama a score_sentences para puntuar las oraciones y a select_sentences para seleccionar las oraciones mejor clasificadas. Las oraciones seleccionadas se unen para formar el resumen, que se imprime.
sentence_scores = score_sentences(sentences) summary_sentences = select_sentences(sentence_scores) summary = ' '.join(summary_sentences) print("Summary:") print(summary)

Salida:

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between
computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida:

8.1.3 Técnicas Avanzadas de Resumen Extractivo

Además del método simple de frecuencia de términos, existen técnicas más avanzadas para el resumen extractivo, incluyendo:

TextRank: Un algoritmo de clasificación basado en grafos que utiliza la similitud entre oraciones para clasificarlas.
Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave.
Aprendizaje Supervisado: Utilizando datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para el resumen.

Vamos a profundizar en cada una de estas técnicas en más detalle:

TextRank

Las oraciones que son más similares a muchas otras oraciones reciben clasificaciones más altas. Aquí hay una implementación básica de TextRank utilizando la biblioteca networkx:

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# NLTK downloads (depending on the environment, 'punkt_tab' may also be required)
nltk.download('punkt')
nltk.download('stopwords')

# Sample text (replace with the reader's input)
text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

# 1) Sentences and light normalization
sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

# 2) TF-IDF vectorization per sentence
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

# 3) Cosine similarity matrix
sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)          # avoid dominant self-loops

# 4) TextRank with NetworkX (PageRank over the similarity graph)
graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

# 5) Selection of top-ranked sentences
num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

print("Summary:")
print(summary)

Aquí hay un desglose detallado:

1. Importar Bibliotecas

El script comienza importando varias bibliotecas:

nltk: Para tareas de procesamiento de lenguaje natural como tokenización y eliminación de palabras vacías.
numpy: Para operaciones numéricas.
networkx: Para crear y analizar grafos, que se utiliza en el algoritmo TextRank.
sklearn.feature_extraction.text.TfidfVectorizer: Para convertir oraciones en vectores TF-IDF.
sklearn.metrics.pairwise.cosine_similarity: Para medir la similitud entre vectores de oraciones.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
import numpy as np
import networkx as nx

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

2. Descargar Recursos de NLTK

Antes de procesar el texto, el script descarga los recursos necesarios para la tokenización y las palabras vacías.

nltk.download('punkt')
nltk.download('stopwords')

3. Texto de Muestra

Se proporciona un texto de muestra para demostrar la resumición extractiva.

text = """Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers to process
and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech
recognition, natural language understanding, and natural language generation."""

4. Tokenización de Oraciones

El texto se divide en oraciones y se cargan las palabras vacías (stopwords) en inglés.

sentences = [s for s in sent_tokenize(text) if s.strip()]
stop_words = set(stopwords.words('english'))

5. Normalización del Texto

Se define una función auxiliar para normalizar las oraciones:

Tokenizar cada oración en palabras.
Convertir todas las palabras a minúsculas.
Eliminar las palabras vacías y los tokens no alfanuméricos.

def normalize(s):
    tokens = [w for w in word_tokenize(s.lower()) if w.isalnum() and w not in stop_words]
    return " ".join(tokens)

normalized = [normalize(s) for s in sentences]

6. Vectorización de Oraciones con TF-IDF

Cada oración normalizada se convierte en un vector TF-IDF. Esto asegura que todas las oraciones estén representadas numéricamente con una longitud de vector igual.

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(normalized)   # shape: (n_sentences, vocab_size)

7. Construir Matriz de Similitud de Oraciones

sim_matrix = cosine_similarity(X, X)
np.fill_diagonal(sim_matrix, 0.0)

8. Aplicar el Algoritmo TextRank

graph = nx.from_numpy_array(sim_matrix)
scores = nx.pagerank(graph)

9. Seleccionar las Mejores Oraciones para el Resumen

Las oraciones se ordenan por sus puntuaciones de PageRank, y se seleccionan las dos mejores para el resumen.

num_sentences = 2
ranked = sorted(((scores[i], s) for i, s in enumerate(sentences)), reverse=True)
summary_sentences = [s for _, s in ranked[:num_sentences]]
summary = " ".join(summary_sentences)

10. Imprimir el Resumen

Finalmente, las oraciones seleccionadas se combinan y se muestran como el resumen extractivo.

print("Summary:")
print(summary)

Ejemplo de Salida

Summary:
Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.

Explicación de la Salida

El resumen consiste en las dos oraciones con las puntuaciones de PageRank más altas. Estas oraciones se consideran las más centrales e informativas con respecto al texto completo.

Resumen de los Pasos Clave:

Preprocesamiento: Este paso inicial implica descomponer el texto en partes más pequeñas. Específicamente, incluye la tokenización del texto en oraciones y palabras individuales. Además, es crucial eliminar las palabras vacías (stopwords), que son palabras comunes que no contribuyen mucho al significado del texto, como "and", "the" y "is".
Matriz de Similitud: En este paso, se construye una matriz de similitud. Esta matriz se basa en la distancia coseno entre oraciones, que mide qué tan similar es cada oración con las demás. El resultado es una red de oraciones donde cada conexión refleja un grado de similitud.
Algoritmo TextRank: Luego se aplica el algoritmo TextRank a esta red de oraciones. TextRank es un algoritmo de clasificación que asigna una puntuación de importancia a cada oración basada en sus relaciones con otras oraciones. Cuantas más conexiones tenga una oración, y cuanto más fuertes sean esas conexiones, mayor será su clasificación.
Generación del Resumen: Finalmente, utilizando las oraciones clasificadas del algoritmo TextRank, se seleccionan las oraciones con las clasificaciones más altas para formar un resumen. Estas oraciones se eligen porque se consideran las más importantes y representativas de las ideas principales del texto original.

Técnicas Avanzadas

Latent Semantic Analysis (LSA): Una técnica de aprendizaje no supervisado que captura la estructura latente del texto e identifica las oraciones clave. Este método descompone el texto en un conjunto de conceptos que representan el significado subyacente, lo que puede ayudar a seleccionar las oraciones más representativas para la resumición.
Aprendizaje Supervisado: Utilizar datos de entrenamiento etiquetados para entrenar un modelo de aprendizaje automático que puntúe y seleccione oraciones para la resumición. Este enfoque implica crear un conjunto de datos de resúmenes de texto y entrenar un modelo para reconocer patrones y características que hacen que ciertas oraciones sean más importantes que otras. El modelo luego puede aplicar este conocimiento a nuevos textos, mejorando la precisión y relevancia de los resúmenes producidos.

Limitaciones:

Coherencia: Los resúmenes extractivos pueden carecer de coherencia y fluidez, ya que las oraciones se seleccionan de forma independiente. Esto significa que el flujo de ideas puede verse interrumpido, haciendo que el resumen sea más difícil de leer y entender.
Redundancia: Los métodos extractivos pueden incluir información redundante si se seleccionan oraciones similares. Esto puede llevar a la repetición de ideas, lo que reduce la eficiencia del resumen.
Abstracción Limitada: La resumición extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. Se basa únicamente en el texto original, lo que puede ser una desventaja significativa cuando se intenta capturar la esencia de material complejo.

Latent Semantic Analysis (LSA)

Ejemplo:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Este ejemplo de código es un ejemplo de cómo realizar Análisis Semántico Latente (LSA) en una colección de documentos de texto.

Aquí tienes una explicación paso a paso y ampliación del código:

# Sample documents
documents = [
    "The cat sat on the mat",
    "The dog chased the ball",
    "The bird flew in the sky"
]

Esta sección inicializa una lista de documentos de texto de muestra. Cada documento es una oración simple.

# Create a term-document matrix (one-hot encoded)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
term_document_matrix = vectorizer.fit_transform(documents)

# Perform Singular Value Decomposition (SVD)
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)  # Reduce dimensionality to 2 for visualization
lsa_matrix = svd.fit_transform(term_document_matrix)

# Reduced term and document representations (topics)
terms = vectorizer.get_feature_names_out()
lsa_topics = svd.components_

# Print the results (example)
print("Terms:", terms)
print("Reduced Document Representations (Topics):")
print(lsa_matrix)
print("Reduced Term Representations (Topics):")
print(lsa_topics)

Aprendizaje Supervisado

Ejemplo:

# Sample text and summaries (labeled data)
text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."  # Important sentences are included

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

# Train a supervised learning model (Logistic Regression example)
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

# New text for summarization
new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

# Predict important sentences using the trained model
predicted_important_indices = model.predict(new_X)

# Generate summary using predicted important sentences
summary = []
for i, sentence in enumerate(new_text.split(".")):
  if predicted_important_indices[i]:
    summary.append(sentence)

print("Summary:", " ".join(summary))

Este fragmento de código describe un enfoque integral para crear un resumidor de texto utilizando aprendizaje supervisado. A continuación se presenta una explicación detallada de cada paso:

1. Texto de Muestra y Resúmenes (Datos Etiquetados)

El código comienza definiendo un texto de muestra y su resumen correspondiente. El resumen incluye las oraciones consideradas importantes del texto de muestra.

text = "The quick brown fox jumps over the lazy dog. Today is a beautiful day. The sun is shining brightly."
summary = "The quick brown fox jumps over the lazy dog. Today is a beautiful day."

En este ejemplo, el texto contiene tres oraciones, y el resumen incluye dos de estas oraciones. Estos datos etiquetados sirven como la verdad fundamental para entrenar el modelo.

2. Preprocesamiento del Texto

# Preprocess text (tokenization, etc.)
# ... (省略号 - shuohuohao - placeholder for preprocessing code)

3. Ingeniería de Características

# Feature engineering (term frequency, sentence position, etc.)
# ... (省略号 - shuohuohao - placeholder for feature engineering code)

4. Preparar Datos de Entrenamiento

Las características extraídas del texto se utilizan para crear los datos de entrenamiento. Se asignan etiquetas a cada oración indicando si es importante (1) o no importante (0).

# Training data (features and labels)
X = features  # Features extracted from text
y = labels   # Labels indicating important sentences (1) or not (0)

5. Entrenar un Modelo de Aprendizaje Supervisado

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)

6. Procesar Nuevo Texto para Resumir

new_text = "This is a new piece of text to be summarized."

# Preprocess and extract features from new text
new_X = # Apply preprocessing and feature engineering to new_text

7. Predecir Oraciones Importantes

El modelo entrenado predice las oraciones importantes del nuevo texto en función de las características.

predicted_important_indices = model.predict(new_X)

8. Generar Resumen

El resumen se genera seleccionando las oraciones del nuevo texto que el modelo predijo como importantes. Estas oraciones se concatenan para formar el resumen final.

summary = []
for i, sentence in enumerate(new_text.split(".")):
    if predicted_important_indices[i]:
        summary.append(sentence)

print("Summary:", " ".join(summary))

Flujo de Trabajo General

Definir Datos de Muestra: Especificar el texto y su resumen para crear datos etiquetados.
Preprocesar Texto: Tokenizar, eliminar palabras vacías y realizar otras tareas de preprocesamiento.
Ingeniería de Características: Extraer características como la frecuencia de términos y la posición de la oración.
Preparar Datos de Entrenamiento: Utilizar las características y etiquetas para crear el conjunto de datos de entrenamiento.
Entrenar el Modelo: Entrenar un modelo de Regresión Logística utilizando los datos de entrenamiento.
Procesar Nuevo Texto: Aplicar preprocesamiento e ingeniería de características al nuevo texto.
Predecir Oraciones Importantes: Utilizar el modelo entrenado para predecir oraciones importantes.
Generar Resumen: Seleccionar y concatenar las oraciones importantes para formar el resumen.

8.1.4 Ventajas y Limitaciones de la Resumación Extractiva

Ventajas:

Simplicidad: Una de las principales ventajas de la resumación extractiva es su implementación sencilla. El método no requiere recursos lingüísticos extensivos ni la comprensión de la semántica subyacente del texto. Mediante el uso de técnicas estadísticas básicas o algoritmos simples de aprendizaje automático, se pueden identificar y extraer las oraciones clave para formar un resumen.
Eficiencia: Los métodos de resumación extractiva son computacionalmente eficientes en comparación con sus contrapartes abstractivas. Dado que el proceso implica seleccionar oraciones existentes en lugar de generar contenido nuevo, requiere menos poder computacional y puede manejar conjuntos de datos grandes de manera efectiva. Esto hace que la resumación extractiva sea adecuada para aplicaciones en tiempo real donde se necesita una respuesta rápida.
Preservación del Texto Original: Como el resumen consiste en oraciones directamente tomadas del texto fuente, se minimiza el riesgo de introducir errores o malas interpretaciones. Esto asegura un alto nivel de precisión y fidelidad al contenido original, lo cual es particularmente importante en contextos donde la precisión es crítica, como en documentos legales o médicos.

Limitaciones:

Coherencia: Una limitación significativa de la resumación extractiva es que las oraciones seleccionadas pueden no fluir suavemente cuando se combinan en un resumen. Dado que cada oración se elige de manera independiente, el resumen resultante puede carecer de coherencia y progresión lógica, lo que dificulta a los lectores seguir las ideas principales.
Redundancia: Los métodos extractivos a veces pueden incluir información redundante. Si varias oraciones transmiten puntos similares, todas podrían ser seleccionadas, lo que lleva a un resumen extenso que no condensa efectivamente el contenido original. Esta redundancia puede restar claridad y concisión al resumen.
Abstracción Limitada: La resumación extractiva no genera nuevas oraciones ni parafrasea el texto existente, lo que limita su capacidad para abstraer y condensar la información de manera efectiva. El método se basa en la presencia de oraciones clave explícitas en el texto original, que puede no capturar siempre las ideas más críticas, especialmente en documentos más complejos o matizados.

Compra este libro