Menu iconMenu icon
Héroe del Aprendizaje Automático

Quiz Parte 2: Preprocesamiento de Datos y Aprendizaje Automático Clásico

Preguntas

Capítulo 3: Preprocesamiento de Datos e Ingeniería de Características

  1. ¿Cuál es el propósito de la limpieza de datos en el preprocesamiento de datos?
    • a) Mejorar el rendimiento del modelo transformando las características
    • b) Identificar y manejar datos faltantes, eliminar duplicados y corregir errores
    • c) Escalar los datos a un rango consistente
    • d) Reducir la dimensionalidad del conjunto de datos
  2. ¿Qué técnica se utiliza típicamente para manejar datos faltantes?
    • a) Codificación one-hot
    • b) Aumento de datos
    • c) Imputación
    • d) PCA
  3. ¿Qué implica la ingeniería de características?
    • a) Crear nuevas características a partir de las existentes
    • b) Reducir el ruido de los datos
    • c) Aumentar el número de muestras en el conjunto de datos
    • d) Tanto a como b
  4. ¿Por qué es importante escalar las características numéricas?
    • a) Para eliminar los valores atípicos del conjunto de datos
    • b) Para asegurar que las características con diferentes rangos contribuyan por igual al rendimiento del modelo
    • c) Para aumentar el tamaño del conjunto de datos
    • d) Para eliminar el ruido del conjunto de datos
  5. ¿Para qué se utiliza la división Train-Test?
    • a) Crear muestras de datos sintéticas
    • b) Separar los datos en conjuntos de entrenamiento y prueba para validar el modelo
    • c) Aumentar el número de características en el conjunto de datos
    • d) Estandarizar características a la misma escala

Capítulo 4: Técnicas de Aprendizaje Supervisado

  1. En la regresión lineal, ¿cuál es el objetivo a minimizar?
    • a) Pérdida de entropía cruzada
    • b) Error cuadrático medio (MSE)
    • c) Precisión
    • d) Descenso de gradiente
  2. ¿Qué algoritmo de clasificación trabaja encontrando un hiperplano que mejor separa las clases?
    • a) Árbol de Decisión
    • b) k-Nearest Neighbors (KNN)
    • c) Máquina de Soporte Vectorial (SVM)
    • d) Bosque Aleatorio
  3. ¿Cuál es el propósito principal del ajuste de hiperparámetros?
    • a) Ajustar la proporción de la división train-test
    • b) Encontrar los mejores valores para los parámetros que controlan el comportamiento del modelo
    • c) Eliminar características que no son útiles
    • d) Evaluar el modelo en un conjunto de prueba
  4. ¿Qué representa la puntuación F1?
    • a) El promedio de precisión y recall
    • b) La media armónica de precisión y recall
    • c) El área bajo la curva ROC
    • d) La precisión del modelo
  5. ¿Cuál de los siguientes algoritmos es un método de conjunto?
    • a) Árboles de Decisión
    • b) Regresión Logística
    • c) Bosque Aleatorio
    • d) Regresión Lineal

Capítulo 5: Técnicas de Aprendizaje No Supervisado

  1. ¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?
    • a) El aprendizaje supervisado requiere datos etiquetados, mientras que el no supervisado no
    • b) El aprendizaje no supervisado solo funciona con datos numéricos
    • c) El aprendizaje supervisado agrupa los datos en clusters
    • d) Ambas técnicas requieren datos etiquetados
  2. ¿Qué algoritmo es un método de clustering basado en densidad?
    • a) K-Means
    • b) Clustering Jerárquico
    • c) DBSCAN
    • d) t-SNE
  3. ¿Cuál de las siguientes opciones describe mejor el Análisis de Componentes Principales (PCA)?
    • a) Un algoritmo de aprendizaje supervisado para clasificación
    • b) Una técnica de reducción de dimensionalidad que preserva la varianza
    • c) Un método para detectar valores atípicos en los datos
    • d) Un algoritmo para optimizar hiperparámetros
  4. ¿Qué mide la puntuación de silueta en el clustering?
    • a) La precisión general del clustering
    • b) La separación entre clusters
    • c) Qué tan similar es un punto de datos a su propio cluster en comparación con otros clusters
    • d) La densidad de los clusters
  5. ¿Cuál es la ventaja clave de UMAP sobre t-SNE?
    • a) UMAP solo preserva la estructura local, mientras que t-SNE preserva tanto la estructura local como la global
    • b) UMAP es más rápido y escalable que t-SNE, lo que lo hace más adecuado para conjuntos de datos más grandes
    • c) t-SNE tiene un mejor rendimiento en datos de alta dimensionalidad
    • d) UMAP no requiere ajuste de parámetros, mientras que t-SNE sí lo hace

Preguntas

Capítulo 3: Preprocesamiento de Datos e Ingeniería de Características

  1. ¿Cuál es el propósito de la limpieza de datos en el preprocesamiento de datos?
    • a) Mejorar el rendimiento del modelo transformando las características
    • b) Identificar y manejar datos faltantes, eliminar duplicados y corregir errores
    • c) Escalar los datos a un rango consistente
    • d) Reducir la dimensionalidad del conjunto de datos
  2. ¿Qué técnica se utiliza típicamente para manejar datos faltantes?
    • a) Codificación one-hot
    • b) Aumento de datos
    • c) Imputación
    • d) PCA
  3. ¿Qué implica la ingeniería de características?
    • a) Crear nuevas características a partir de las existentes
    • b) Reducir el ruido de los datos
    • c) Aumentar el número de muestras en el conjunto de datos
    • d) Tanto a como b
  4. ¿Por qué es importante escalar las características numéricas?
    • a) Para eliminar los valores atípicos del conjunto de datos
    • b) Para asegurar que las características con diferentes rangos contribuyan por igual al rendimiento del modelo
    • c) Para aumentar el tamaño del conjunto de datos
    • d) Para eliminar el ruido del conjunto de datos
  5. ¿Para qué se utiliza la división Train-Test?
    • a) Crear muestras de datos sintéticas
    • b) Separar los datos en conjuntos de entrenamiento y prueba para validar el modelo
    • c) Aumentar el número de características en el conjunto de datos
    • d) Estandarizar características a la misma escala

Capítulo 4: Técnicas de Aprendizaje Supervisado

  1. En la regresión lineal, ¿cuál es el objetivo a minimizar?
    • a) Pérdida de entropía cruzada
    • b) Error cuadrático medio (MSE)
    • c) Precisión
    • d) Descenso de gradiente
  2. ¿Qué algoritmo de clasificación trabaja encontrando un hiperplano que mejor separa las clases?
    • a) Árbol de Decisión
    • b) k-Nearest Neighbors (KNN)
    • c) Máquina de Soporte Vectorial (SVM)
    • d) Bosque Aleatorio
  3. ¿Cuál es el propósito principal del ajuste de hiperparámetros?
    • a) Ajustar la proporción de la división train-test
    • b) Encontrar los mejores valores para los parámetros que controlan el comportamiento del modelo
    • c) Eliminar características que no son útiles
    • d) Evaluar el modelo en un conjunto de prueba
  4. ¿Qué representa la puntuación F1?
    • a) El promedio de precisión y recall
    • b) La media armónica de precisión y recall
    • c) El área bajo la curva ROC
    • d) La precisión del modelo
  5. ¿Cuál de los siguientes algoritmos es un método de conjunto?
    • a) Árboles de Decisión
    • b) Regresión Logística
    • c) Bosque Aleatorio
    • d) Regresión Lineal

Capítulo 5: Técnicas de Aprendizaje No Supervisado

  1. ¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?
    • a) El aprendizaje supervisado requiere datos etiquetados, mientras que el no supervisado no
    • b) El aprendizaje no supervisado solo funciona con datos numéricos
    • c) El aprendizaje supervisado agrupa los datos en clusters
    • d) Ambas técnicas requieren datos etiquetados
  2. ¿Qué algoritmo es un método de clustering basado en densidad?
    • a) K-Means
    • b) Clustering Jerárquico
    • c) DBSCAN
    • d) t-SNE
  3. ¿Cuál de las siguientes opciones describe mejor el Análisis de Componentes Principales (PCA)?
    • a) Un algoritmo de aprendizaje supervisado para clasificación
    • b) Una técnica de reducción de dimensionalidad que preserva la varianza
    • c) Un método para detectar valores atípicos en los datos
    • d) Un algoritmo para optimizar hiperparámetros
  4. ¿Qué mide la puntuación de silueta en el clustering?
    • a) La precisión general del clustering
    • b) La separación entre clusters
    • c) Qué tan similar es un punto de datos a su propio cluster en comparación con otros clusters
    • d) La densidad de los clusters
  5. ¿Cuál es la ventaja clave de UMAP sobre t-SNE?
    • a) UMAP solo preserva la estructura local, mientras que t-SNE preserva tanto la estructura local como la global
    • b) UMAP es más rápido y escalable que t-SNE, lo que lo hace más adecuado para conjuntos de datos más grandes
    • c) t-SNE tiene un mejor rendimiento en datos de alta dimensionalidad
    • d) UMAP no requiere ajuste de parámetros, mientras que t-SNE sí lo hace

Preguntas

Capítulo 3: Preprocesamiento de Datos e Ingeniería de Características

  1. ¿Cuál es el propósito de la limpieza de datos en el preprocesamiento de datos?
    • a) Mejorar el rendimiento del modelo transformando las características
    • b) Identificar y manejar datos faltantes, eliminar duplicados y corregir errores
    • c) Escalar los datos a un rango consistente
    • d) Reducir la dimensionalidad del conjunto de datos
  2. ¿Qué técnica se utiliza típicamente para manejar datos faltantes?
    • a) Codificación one-hot
    • b) Aumento de datos
    • c) Imputación
    • d) PCA
  3. ¿Qué implica la ingeniería de características?
    • a) Crear nuevas características a partir de las existentes
    • b) Reducir el ruido de los datos
    • c) Aumentar el número de muestras en el conjunto de datos
    • d) Tanto a como b
  4. ¿Por qué es importante escalar las características numéricas?
    • a) Para eliminar los valores atípicos del conjunto de datos
    • b) Para asegurar que las características con diferentes rangos contribuyan por igual al rendimiento del modelo
    • c) Para aumentar el tamaño del conjunto de datos
    • d) Para eliminar el ruido del conjunto de datos
  5. ¿Para qué se utiliza la división Train-Test?
    • a) Crear muestras de datos sintéticas
    • b) Separar los datos en conjuntos de entrenamiento y prueba para validar el modelo
    • c) Aumentar el número de características en el conjunto de datos
    • d) Estandarizar características a la misma escala

Capítulo 4: Técnicas de Aprendizaje Supervisado

  1. En la regresión lineal, ¿cuál es el objetivo a minimizar?
    • a) Pérdida de entropía cruzada
    • b) Error cuadrático medio (MSE)
    • c) Precisión
    • d) Descenso de gradiente
  2. ¿Qué algoritmo de clasificación trabaja encontrando un hiperplano que mejor separa las clases?
    • a) Árbol de Decisión
    • b) k-Nearest Neighbors (KNN)
    • c) Máquina de Soporte Vectorial (SVM)
    • d) Bosque Aleatorio
  3. ¿Cuál es el propósito principal del ajuste de hiperparámetros?
    • a) Ajustar la proporción de la división train-test
    • b) Encontrar los mejores valores para los parámetros que controlan el comportamiento del modelo
    • c) Eliminar características que no son útiles
    • d) Evaluar el modelo en un conjunto de prueba
  4. ¿Qué representa la puntuación F1?
    • a) El promedio de precisión y recall
    • b) La media armónica de precisión y recall
    • c) El área bajo la curva ROC
    • d) La precisión del modelo
  5. ¿Cuál de los siguientes algoritmos es un método de conjunto?
    • a) Árboles de Decisión
    • b) Regresión Logística
    • c) Bosque Aleatorio
    • d) Regresión Lineal

Capítulo 5: Técnicas de Aprendizaje No Supervisado

  1. ¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?
    • a) El aprendizaje supervisado requiere datos etiquetados, mientras que el no supervisado no
    • b) El aprendizaje no supervisado solo funciona con datos numéricos
    • c) El aprendizaje supervisado agrupa los datos en clusters
    • d) Ambas técnicas requieren datos etiquetados
  2. ¿Qué algoritmo es un método de clustering basado en densidad?
    • a) K-Means
    • b) Clustering Jerárquico
    • c) DBSCAN
    • d) t-SNE
  3. ¿Cuál de las siguientes opciones describe mejor el Análisis de Componentes Principales (PCA)?
    • a) Un algoritmo de aprendizaje supervisado para clasificación
    • b) Una técnica de reducción de dimensionalidad que preserva la varianza
    • c) Un método para detectar valores atípicos en los datos
    • d) Un algoritmo para optimizar hiperparámetros
  4. ¿Qué mide la puntuación de silueta en el clustering?
    • a) La precisión general del clustering
    • b) La separación entre clusters
    • c) Qué tan similar es un punto de datos a su propio cluster en comparación con otros clusters
    • d) La densidad de los clusters
  5. ¿Cuál es la ventaja clave de UMAP sobre t-SNE?
    • a) UMAP solo preserva la estructura local, mientras que t-SNE preserva tanto la estructura local como la global
    • b) UMAP es más rápido y escalable que t-SNE, lo que lo hace más adecuado para conjuntos de datos más grandes
    • c) t-SNE tiene un mejor rendimiento en datos de alta dimensionalidad
    • d) UMAP no requiere ajuste de parámetros, mientras que t-SNE sí lo hace

Preguntas

Capítulo 3: Preprocesamiento de Datos e Ingeniería de Características

  1. ¿Cuál es el propósito de la limpieza de datos en el preprocesamiento de datos?
    • a) Mejorar el rendimiento del modelo transformando las características
    • b) Identificar y manejar datos faltantes, eliminar duplicados y corregir errores
    • c) Escalar los datos a un rango consistente
    • d) Reducir la dimensionalidad del conjunto de datos
  2. ¿Qué técnica se utiliza típicamente para manejar datos faltantes?
    • a) Codificación one-hot
    • b) Aumento de datos
    • c) Imputación
    • d) PCA
  3. ¿Qué implica la ingeniería de características?
    • a) Crear nuevas características a partir de las existentes
    • b) Reducir el ruido de los datos
    • c) Aumentar el número de muestras en el conjunto de datos
    • d) Tanto a como b
  4. ¿Por qué es importante escalar las características numéricas?
    • a) Para eliminar los valores atípicos del conjunto de datos
    • b) Para asegurar que las características con diferentes rangos contribuyan por igual al rendimiento del modelo
    • c) Para aumentar el tamaño del conjunto de datos
    • d) Para eliminar el ruido del conjunto de datos
  5. ¿Para qué se utiliza la división Train-Test?
    • a) Crear muestras de datos sintéticas
    • b) Separar los datos en conjuntos de entrenamiento y prueba para validar el modelo
    • c) Aumentar el número de características en el conjunto de datos
    • d) Estandarizar características a la misma escala

Capítulo 4: Técnicas de Aprendizaje Supervisado

  1. En la regresión lineal, ¿cuál es el objetivo a minimizar?
    • a) Pérdida de entropía cruzada
    • b) Error cuadrático medio (MSE)
    • c) Precisión
    • d) Descenso de gradiente
  2. ¿Qué algoritmo de clasificación trabaja encontrando un hiperplano que mejor separa las clases?
    • a) Árbol de Decisión
    • b) k-Nearest Neighbors (KNN)
    • c) Máquina de Soporte Vectorial (SVM)
    • d) Bosque Aleatorio
  3. ¿Cuál es el propósito principal del ajuste de hiperparámetros?
    • a) Ajustar la proporción de la división train-test
    • b) Encontrar los mejores valores para los parámetros que controlan el comportamiento del modelo
    • c) Eliminar características que no son útiles
    • d) Evaluar el modelo en un conjunto de prueba
  4. ¿Qué representa la puntuación F1?
    • a) El promedio de precisión y recall
    • b) La media armónica de precisión y recall
    • c) El área bajo la curva ROC
    • d) La precisión del modelo
  5. ¿Cuál de los siguientes algoritmos es un método de conjunto?
    • a) Árboles de Decisión
    • b) Regresión Logística
    • c) Bosque Aleatorio
    • d) Regresión Lineal

Capítulo 5: Técnicas de Aprendizaje No Supervisado

  1. ¿Cuál es la principal diferencia entre el aprendizaje supervisado y el no supervisado?
    • a) El aprendizaje supervisado requiere datos etiquetados, mientras que el no supervisado no
    • b) El aprendizaje no supervisado solo funciona con datos numéricos
    • c) El aprendizaje supervisado agrupa los datos en clusters
    • d) Ambas técnicas requieren datos etiquetados
  2. ¿Qué algoritmo es un método de clustering basado en densidad?
    • a) K-Means
    • b) Clustering Jerárquico
    • c) DBSCAN
    • d) t-SNE
  3. ¿Cuál de las siguientes opciones describe mejor el Análisis de Componentes Principales (PCA)?
    • a) Un algoritmo de aprendizaje supervisado para clasificación
    • b) Una técnica de reducción de dimensionalidad que preserva la varianza
    • c) Un método para detectar valores atípicos en los datos
    • d) Un algoritmo para optimizar hiperparámetros
  4. ¿Qué mide la puntuación de silueta en el clustering?
    • a) La precisión general del clustering
    • b) La separación entre clusters
    • c) Qué tan similar es un punto de datos a su propio cluster en comparación con otros clusters
    • d) La densidad de los clusters
  5. ¿Cuál es la ventaja clave de UMAP sobre t-SNE?
    • a) UMAP solo preserva la estructura local, mientras que t-SNE preserva tanto la estructura local como la global
    • b) UMAP es más rápido y escalable que t-SNE, lo que lo hace más adecuado para conjuntos de datos más grandes
    • c) t-SNE tiene un mejor rendimiento en datos de alta dimensionalidad
    • d) UMAP no requiere ajuste de parámetros, mientras que t-SNE sí lo hace