Menu iconMenu icon
NLP con Transformadores: Fundamentos y Aplicaciones Básicas

Proyecto 2: Clasificación de Noticias Usando BERT

4. Paso 2: Carga y Preparación del Conjunto de Datos

Para este proyecto, utilizaremos un conjunto de datos integral de categorización de noticias disponible públicamente. El conjunto de datos AG News es una excelente opción para esta tarea, ya que proporciona una colección bien estructurada y equilibrada de artículos de noticias. Este conjunto de datos consta de aproximadamente 120,000 muestras de entrenamiento y 7,600 muestras de prueba, lo que lo hace lo suficientemente sustancial para un entrenamiento y evaluación significativos del modelo.

El conjunto de datos AG News es particularmente valioso porque ofrece:

  • Cuatro categorías distintas (Mundial, Deportes, Negocios y Ciencia/Tecnología) que cubren los dominios de noticias más comunes
  • Datos etiquetados de alta calidad que han sido curados profesionalmente
  • Una distribución equilibrada de artículos entre categorías
  • Artículos de diversa longitud y complejidad, proporcionando un escenario de entrenamiento realista

Cada artículo en el conjunto de datos incluye tanto el titular como el texto descriptivo, permitiendo que el modelo aprenda tanto de resúmenes concisos como de contenido detallado. Esta estructura lo hace ideal para entrenar un sistema robusto de categorización de noticias que pueda manejar aplicaciones del mundo real.

Cargar el Conjunto de Datos

from datasets import load_dataset

# Load the AG News dataset
dataset = load_dataset('ag_news')

# Check the dataset structure
print(dataset)

El conjunto de datos tendrá una división de entrenamiento y prueba, donde cada entrada contiene el texto del artículo de noticias y su etiqueta (categoría) correspondiente.

4. Paso 2: Carga y Preparación del Conjunto de Datos

Para este proyecto, utilizaremos un conjunto de datos integral de categorización de noticias disponible públicamente. El conjunto de datos AG News es una excelente opción para esta tarea, ya que proporciona una colección bien estructurada y equilibrada de artículos de noticias. Este conjunto de datos consta de aproximadamente 120,000 muestras de entrenamiento y 7,600 muestras de prueba, lo que lo hace lo suficientemente sustancial para un entrenamiento y evaluación significativos del modelo.

El conjunto de datos AG News es particularmente valioso porque ofrece:

  • Cuatro categorías distintas (Mundial, Deportes, Negocios y Ciencia/Tecnología) que cubren los dominios de noticias más comunes
  • Datos etiquetados de alta calidad que han sido curados profesionalmente
  • Una distribución equilibrada de artículos entre categorías
  • Artículos de diversa longitud y complejidad, proporcionando un escenario de entrenamiento realista

Cada artículo en el conjunto de datos incluye tanto el titular como el texto descriptivo, permitiendo que el modelo aprenda tanto de resúmenes concisos como de contenido detallado. Esta estructura lo hace ideal para entrenar un sistema robusto de categorización de noticias que pueda manejar aplicaciones del mundo real.

Cargar el Conjunto de Datos

from datasets import load_dataset

# Load the AG News dataset
dataset = load_dataset('ag_news')

# Check the dataset structure
print(dataset)

El conjunto de datos tendrá una división de entrenamiento y prueba, donde cada entrada contiene el texto del artículo de noticias y su etiqueta (categoría) correspondiente.

4. Paso 2: Carga y Preparación del Conjunto de Datos

Para este proyecto, utilizaremos un conjunto de datos integral de categorización de noticias disponible públicamente. El conjunto de datos AG News es una excelente opción para esta tarea, ya que proporciona una colección bien estructurada y equilibrada de artículos de noticias. Este conjunto de datos consta de aproximadamente 120,000 muestras de entrenamiento y 7,600 muestras de prueba, lo que lo hace lo suficientemente sustancial para un entrenamiento y evaluación significativos del modelo.

El conjunto de datos AG News es particularmente valioso porque ofrece:

  • Cuatro categorías distintas (Mundial, Deportes, Negocios y Ciencia/Tecnología) que cubren los dominios de noticias más comunes
  • Datos etiquetados de alta calidad que han sido curados profesionalmente
  • Una distribución equilibrada de artículos entre categorías
  • Artículos de diversa longitud y complejidad, proporcionando un escenario de entrenamiento realista

Cada artículo en el conjunto de datos incluye tanto el titular como el texto descriptivo, permitiendo que el modelo aprenda tanto de resúmenes concisos como de contenido detallado. Esta estructura lo hace ideal para entrenar un sistema robusto de categorización de noticias que pueda manejar aplicaciones del mundo real.

Cargar el Conjunto de Datos

from datasets import load_dataset

# Load the AG News dataset
dataset = load_dataset('ag_news')

# Check the dataset structure
print(dataset)

El conjunto de datos tendrá una división de entrenamiento y prueba, donde cada entrada contiene el texto del artículo de noticias y su etiqueta (categoría) correspondiente.

4. Paso 2: Carga y Preparación del Conjunto de Datos

Para este proyecto, utilizaremos un conjunto de datos integral de categorización de noticias disponible públicamente. El conjunto de datos AG News es una excelente opción para esta tarea, ya que proporciona una colección bien estructurada y equilibrada de artículos de noticias. Este conjunto de datos consta de aproximadamente 120,000 muestras de entrenamiento y 7,600 muestras de prueba, lo que lo hace lo suficientemente sustancial para un entrenamiento y evaluación significativos del modelo.

El conjunto de datos AG News es particularmente valioso porque ofrece:

  • Cuatro categorías distintas (Mundial, Deportes, Negocios y Ciencia/Tecnología) que cubren los dominios de noticias más comunes
  • Datos etiquetados de alta calidad que han sido curados profesionalmente
  • Una distribución equilibrada de artículos entre categorías
  • Artículos de diversa longitud y complejidad, proporcionando un escenario de entrenamiento realista

Cada artículo en el conjunto de datos incluye tanto el titular como el texto descriptivo, permitiendo que el modelo aprenda tanto de resúmenes concisos como de contenido detallado. Esta estructura lo hace ideal para entrenar un sistema robusto de categorización de noticias que pueda manejar aplicaciones del mundo real.

Cargar el Conjunto de Datos

from datasets import load_dataset

# Load the AG News dataset
dataset = load_dataset('ag_news')

# Check the dataset structure
print(dataset)

El conjunto de datos tendrá una división de entrenamiento y prueba, donde cada entrada contiene el texto del artículo de noticias y su etiqueta (categoría) correspondiente.