Menu iconMenu icon
NLP con Transformadores: Fundamentos y Aplicaciones Básicas

Proyecto 2: Clasificación de Noticias Usando BERT

8. Paso 5: Pruebas con Nuevos Datos

Puedes probar tu modelo con artículos de noticias personalizados para ver qué tan bien los categoriza.

# Define a custom news article
custom_text = "The stock market saw significant gains today as tech stocks rallied."

# Tokenize and predict
inputs = tokenizer(custom_text, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()

# Map predicted label to category
categories = ['World', 'Sports', 'Business', 'Sci/Tech']
print(f"Predicted Category: {categories[predicted_label]}")

Analicemos este código que prueba el modelo BERT con nuevos datos:

1. Definición de Entrada:

custom_text = "The stock market saw significant gains today as tech stocks rallied."

Esta línea crea un texto de artículo de noticias de muestra que queremos categorizar.

2. Procesamiento de la Entrada:

  • La función tokenizer() convierte el texto en un formato que BERT puede entender, con estos parámetros:
    • return_tensors="pt": Devuelve tensores de PyTorch
    • truncation=True: Corta el texto si es demasiado largo
    • padding=True: Añade relleno para estandarizar la longitud de entrada

3. Realizando Predicciones:

  • El model(**inputs) ejecuta el texto procesado a través del modelo BERT
  • El outputs.logits.argmax(-1).item() obtiene el índice de categoría predicho con la mayor probabilidad

4. Mapeo de Categorías:

  • El código mapea la predicción numérica a una de cuatro categorías: Mundial, Deportes, Negocios o Ciencia/Tecnología
  • Finalmente, imprime la categoría predicha para el texto de entrada

Este código representa la aplicación práctica del modelo BERT, permitiendo categorizar cualquier nuevo artículo de noticias en una de estas categorías predefinidas.

8. Paso 5: Pruebas con Nuevos Datos

Puedes probar tu modelo con artículos de noticias personalizados para ver qué tan bien los categoriza.

# Define a custom news article
custom_text = "The stock market saw significant gains today as tech stocks rallied."

# Tokenize and predict
inputs = tokenizer(custom_text, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()

# Map predicted label to category
categories = ['World', 'Sports', 'Business', 'Sci/Tech']
print(f"Predicted Category: {categories[predicted_label]}")

Analicemos este código que prueba el modelo BERT con nuevos datos:

1. Definición de Entrada:

custom_text = "The stock market saw significant gains today as tech stocks rallied."

Esta línea crea un texto de artículo de noticias de muestra que queremos categorizar.

2. Procesamiento de la Entrada:

  • La función tokenizer() convierte el texto en un formato que BERT puede entender, con estos parámetros:
    • return_tensors="pt": Devuelve tensores de PyTorch
    • truncation=True: Corta el texto si es demasiado largo
    • padding=True: Añade relleno para estandarizar la longitud de entrada

3. Realizando Predicciones:

  • El model(**inputs) ejecuta el texto procesado a través del modelo BERT
  • El outputs.logits.argmax(-1).item() obtiene el índice de categoría predicho con la mayor probabilidad

4. Mapeo de Categorías:

  • El código mapea la predicción numérica a una de cuatro categorías: Mundial, Deportes, Negocios o Ciencia/Tecnología
  • Finalmente, imprime la categoría predicha para el texto de entrada

Este código representa la aplicación práctica del modelo BERT, permitiendo categorizar cualquier nuevo artículo de noticias en una de estas categorías predefinidas.

8. Paso 5: Pruebas con Nuevos Datos

Puedes probar tu modelo con artículos de noticias personalizados para ver qué tan bien los categoriza.

# Define a custom news article
custom_text = "The stock market saw significant gains today as tech stocks rallied."

# Tokenize and predict
inputs = tokenizer(custom_text, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()

# Map predicted label to category
categories = ['World', 'Sports', 'Business', 'Sci/Tech']
print(f"Predicted Category: {categories[predicted_label]}")

Analicemos este código que prueba el modelo BERT con nuevos datos:

1. Definición de Entrada:

custom_text = "The stock market saw significant gains today as tech stocks rallied."

Esta línea crea un texto de artículo de noticias de muestra que queremos categorizar.

2. Procesamiento de la Entrada:

  • La función tokenizer() convierte el texto en un formato que BERT puede entender, con estos parámetros:
    • return_tensors="pt": Devuelve tensores de PyTorch
    • truncation=True: Corta el texto si es demasiado largo
    • padding=True: Añade relleno para estandarizar la longitud de entrada

3. Realizando Predicciones:

  • El model(**inputs) ejecuta el texto procesado a través del modelo BERT
  • El outputs.logits.argmax(-1).item() obtiene el índice de categoría predicho con la mayor probabilidad

4. Mapeo de Categorías:

  • El código mapea la predicción numérica a una de cuatro categorías: Mundial, Deportes, Negocios o Ciencia/Tecnología
  • Finalmente, imprime la categoría predicha para el texto de entrada

Este código representa la aplicación práctica del modelo BERT, permitiendo categorizar cualquier nuevo artículo de noticias en una de estas categorías predefinidas.

8. Paso 5: Pruebas con Nuevos Datos

Puedes probar tu modelo con artículos de noticias personalizados para ver qué tan bien los categoriza.

# Define a custom news article
custom_text = "The stock market saw significant gains today as tech stocks rallied."

# Tokenize and predict
inputs = tokenizer(custom_text, return_tensors="pt", truncation=True, padding=True)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()

# Map predicted label to category
categories = ['World', 'Sports', 'Business', 'Sci/Tech']
print(f"Predicted Category: {categories[predicted_label]}")

Analicemos este código que prueba el modelo BERT con nuevos datos:

1. Definición de Entrada:

custom_text = "The stock market saw significant gains today as tech stocks rallied."

Esta línea crea un texto de artículo de noticias de muestra que queremos categorizar.

2. Procesamiento de la Entrada:

  • La función tokenizer() convierte el texto en un formato que BERT puede entender, con estos parámetros:
    • return_tensors="pt": Devuelve tensores de PyTorch
    • truncation=True: Corta el texto si es demasiado largo
    • padding=True: Añade relleno para estandarizar la longitud de entrada

3. Realizando Predicciones:

  • El model(**inputs) ejecuta el texto procesado a través del modelo BERT
  • El outputs.logits.argmax(-1).item() obtiene el índice de categoría predicho con la mayor probabilidad

4. Mapeo de Categorías:

  • El código mapea la predicción numérica a una de cuatro categorías: Mundial, Deportes, Negocios o Ciencia/Tecnología
  • Finalmente, imprime la categoría predicha para el texto de entrada

Este código representa la aplicación práctica del modelo BERT, permitiendo categorizar cualquier nuevo artículo de noticias en una de estas categorías predefinidas.