Quiz Parte III
Verdadero o Falso
6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.
Verdadero / Falso
7. El resumen de video combina información de audio, fotogramas de video y texto.
Verdadero / Falso
8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.
Verdadero / Falso
9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.
Verdadero / Falso
10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.
Verdadero / Falso
Verdadero o Falso
6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.
Verdadero / Falso
7. El resumen de video combina información de audio, fotogramas de video y texto.
Verdadero / Falso
8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.
Verdadero / Falso
9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.
Verdadero / Falso
10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.
Verdadero / Falso
Verdadero o Falso
6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.
Verdadero / Falso
7. El resumen de video combina información de audio, fotogramas de video y texto.
Verdadero / Falso
8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.
Verdadero / Falso
9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.
Verdadero / Falso
10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.
Verdadero / Falso
Verdadero o Falso
6. La atención cross-modal alinea embeddings de diferentes modalidades como texto e imágenes.
Verdadero / Falso
7. El resumen de video combina información de audio, fotogramas de video y texto.
Verdadero / Falso
8. Los modelos de visión-lenguaje como CLIP no son adecuados para tareas que requieren clasificación zero-shot.
Verdadero / Falso
9. Whisper está diseñado para manejar eficazmente entornos de audio con ruido.
Verdadero / Falso
10. Los transformers multimodales dependen únicamente de datos de texto para su entrenamiento.
Verdadero / Falso