Click here to view the next lesson.

Quiz Parte III

Verdadero o Falso

6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.

Verdadero / Falso

7. El resumen de video combina información de audio, fotogramas de video y texto.

Verdadero / Falso

8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.

Verdadero / Falso

9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.

Verdadero / Falso

10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.

Verdadero / Falso

6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.

Verdadero / Falso

7. El resumen de video combina información de audio, fotogramas de video y texto.

Verdadero / Falso

8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.

Verdadero / Falso

9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.

Verdadero / Falso

10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.

Verdadero / Falso

6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.

Verdadero / Falso

7. El resumen de video combina información de audio, fotogramas de video y texto.

Verdadero / Falso

8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.

Verdadero / Falso

9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.

Verdadero / Falso

10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.

Verdadero / Falso

6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.

Verdadero / Falso

7. El resumen de video combina información de audio, fotogramas de video y texto.

Verdadero / Falso

8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.

Verdadero / Falso

9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.

Verdadero / Falso

10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.

Verdadero / Falso