Menu iconMenu icon
NLP con Transformadores: Técnicas Avanzadas y Aplicaciones Multimodales

Proyecto 1: Traducción automática con MarianMT

Paso 4: Explorando Pares de Idiomas Adicionales

MarianMT admite varios pares de idiomas. Puedes experimentar con modelos como:

  • Helsinki-NLP/opus-mt-en-de para inglés a alemán.
  • Helsinki-NLP/opus-mt-fr-en para francés a inglés.

Simplemente reemplaza el nombre del modelo en la variable model_name para cargar un par de idiomas diferente. Aquí hay un ejemplo para inglés a alemán:

model_name = "Helsinki-NLP/opus-mt-en-de"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Translate a sentence
text_to_translate = ["Welcome to the world of transformers!"]
inputs = tokenizer(text_to_translate, return_tensors="pt", padding=True)
translated_outputs = model.generate(**inputs)
translated_texts = [tokenizer.decode(t, skip_special_tokens=True) for t in translated_outputs]

print(f"Translated Text (EN to DE): {translated_texts[0]}")

Analicemos este ejemplo de código:

1. Configuración del Modelo:

  • Configura el modelo de traducción de inglés a alemán usando "Helsinki-NLP/opus-mt-en-de"
  • Inicializa tanto el tokenizador como el modelo desde los pesos preentrenados

2. Proceso de Traducción:

  • Crea un array de texto de muestra con una oración: "Welcome to the world of transformers!"
  • Convierte el texto en tokens que el modelo pueda entender usando el tokenizador
  • Genera la traducción usando el método generate del modelo
  • Decodifica la salida de vuelta a texto legible, omitiendo tokens especiales

3. Salida:

  • Finalmente imprime el texto traducido, mostrando la conversión de inglés a alemán

Paso 4: Explorando Pares de Idiomas Adicionales

MarianMT admite varios pares de idiomas. Puedes experimentar con modelos como:

  • Helsinki-NLP/opus-mt-en-de para inglés a alemán.
  • Helsinki-NLP/opus-mt-fr-en para francés a inglés.

Simplemente reemplaza el nombre del modelo en la variable model_name para cargar un par de idiomas diferente. Aquí hay un ejemplo para inglés a alemán:

model_name = "Helsinki-NLP/opus-mt-en-de"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Translate a sentence
text_to_translate = ["Welcome to the world of transformers!"]
inputs = tokenizer(text_to_translate, return_tensors="pt", padding=True)
translated_outputs = model.generate(**inputs)
translated_texts = [tokenizer.decode(t, skip_special_tokens=True) for t in translated_outputs]

print(f"Translated Text (EN to DE): {translated_texts[0]}")

Analicemos este ejemplo de código:

1. Configuración del Modelo:

  • Configura el modelo de traducción de inglés a alemán usando "Helsinki-NLP/opus-mt-en-de"
  • Inicializa tanto el tokenizador como el modelo desde los pesos preentrenados

2. Proceso de Traducción:

  • Crea un array de texto de muestra con una oración: "Welcome to the world of transformers!"
  • Convierte el texto en tokens que el modelo pueda entender usando el tokenizador
  • Genera la traducción usando el método generate del modelo
  • Decodifica la salida de vuelta a texto legible, omitiendo tokens especiales

3. Salida:

  • Finalmente imprime el texto traducido, mostrando la conversión de inglés a alemán

Paso 4: Explorando Pares de Idiomas Adicionales

MarianMT admite varios pares de idiomas. Puedes experimentar con modelos como:

  • Helsinki-NLP/opus-mt-en-de para inglés a alemán.
  • Helsinki-NLP/opus-mt-fr-en para francés a inglés.

Simplemente reemplaza el nombre del modelo en la variable model_name para cargar un par de idiomas diferente. Aquí hay un ejemplo para inglés a alemán:

model_name = "Helsinki-NLP/opus-mt-en-de"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Translate a sentence
text_to_translate = ["Welcome to the world of transformers!"]
inputs = tokenizer(text_to_translate, return_tensors="pt", padding=True)
translated_outputs = model.generate(**inputs)
translated_texts = [tokenizer.decode(t, skip_special_tokens=True) for t in translated_outputs]

print(f"Translated Text (EN to DE): {translated_texts[0]}")

Analicemos este ejemplo de código:

1. Configuración del Modelo:

  • Configura el modelo de traducción de inglés a alemán usando "Helsinki-NLP/opus-mt-en-de"
  • Inicializa tanto el tokenizador como el modelo desde los pesos preentrenados

2. Proceso de Traducción:

  • Crea un array de texto de muestra con una oración: "Welcome to the world of transformers!"
  • Convierte el texto en tokens que el modelo pueda entender usando el tokenizador
  • Genera la traducción usando el método generate del modelo
  • Decodifica la salida de vuelta a texto legible, omitiendo tokens especiales

3. Salida:

  • Finalmente imprime el texto traducido, mostrando la conversión de inglés a alemán

Paso 4: Explorando Pares de Idiomas Adicionales

MarianMT admite varios pares de idiomas. Puedes experimentar con modelos como:

  • Helsinki-NLP/opus-mt-en-de para inglés a alemán.
  • Helsinki-NLP/opus-mt-fr-en para francés a inglés.

Simplemente reemplaza el nombre del modelo en la variable model_name para cargar un par de idiomas diferente. Aquí hay un ejemplo para inglés a alemán:

model_name = "Helsinki-NLP/opus-mt-en-de"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)

# Translate a sentence
text_to_translate = ["Welcome to the world of transformers!"]
inputs = tokenizer(text_to_translate, return_tensors="pt", padding=True)
translated_outputs = model.generate(**inputs)
translated_texts = [tokenizer.decode(t, skip_special_tokens=True) for t in translated_outputs]

print(f"Translated Text (EN to DE): {translated_texts[0]}")

Analicemos este ejemplo de código:

1. Configuración del Modelo:

  • Configura el modelo de traducción de inglés a alemán usando "Helsinki-NLP/opus-mt-en-de"
  • Inicializa tanto el tokenizador como el modelo desde los pesos preentrenados

2. Proceso de Traducción:

  • Crea un array de texto de muestra con una oración: "Welcome to the world of transformers!"
  • Convierte el texto en tokens que el modelo pueda entender usando el tokenizador
  • Genera la traducción usando el método generate del modelo
  • Decodifica la salida de vuelta a texto legible, omitiendo tokens especiales

3. Salida:

  • Finalmente imprime el texto traducido, mostrando la conversión de inglés a alemán