Menu iconMenu icon
Fundamentos de Ingeniería de Datos

Cuestionario Parte 1: Estableciendo el Escenario para un Análisis Avanzado

Preguntas

Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

  • a) Pandas ofrece capacidades de visualización integradas.
  • b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
  • c) Pandas escala automáticamente los modelos de aprendizaje automático.
  • d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

a)

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

b)

df.filter(SalesAmount > 200 & Store == 'A')

c)

df.query('SalesAmount > 200' & 'Store == "A"')

d)

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

  • a) Suma elemento a elemento entre arreglos.
  • b) Multiplicación de matrices.
  • c) Iterar sobre elementos individuales con un bucle en Python.
  • d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

  • a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
  • b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
  • c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
  • d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

a)

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

b)

df.filter('Category').groupby('PurchaseAmount').sum().mean()

c)

df.pivot('Category').sum().mean('PurchaseAmount')

d)

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

  • a) Permite visualizar automáticamente tus datos después de cada paso.
  • b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
  • c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
  • d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

  • a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
  • b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
  • c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
  • d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

  • a) Aumenta la precisión de los cálculos.
  • b) Reduce el uso de memoria de grandes conjuntos de datos.
  • c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
  • d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

a)

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

b)

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

c)

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

d)

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

a)

df.resample('M').sum()

b)

df.resample('D').sum('M')

c)


df.resample('W').groupby('M').sum()

d)

df.groupby('M').resample('D').sum()

Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!

Preguntas

Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

  • a) Pandas ofrece capacidades de visualización integradas.
  • b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
  • c) Pandas escala automáticamente los modelos de aprendizaje automático.
  • d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

a)

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

b)

df.filter(SalesAmount > 200 & Store == 'A')

c)

df.query('SalesAmount > 200' & 'Store == "A"')

d)

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

  • a) Suma elemento a elemento entre arreglos.
  • b) Multiplicación de matrices.
  • c) Iterar sobre elementos individuales con un bucle en Python.
  • d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

  • a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
  • b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
  • c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
  • d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

a)

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

b)

df.filter('Category').groupby('PurchaseAmount').sum().mean()

c)

df.pivot('Category').sum().mean('PurchaseAmount')

d)

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

  • a) Permite visualizar automáticamente tus datos después de cada paso.
  • b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
  • c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
  • d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

  • a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
  • b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
  • c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
  • d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

  • a) Aumenta la precisión de los cálculos.
  • b) Reduce el uso de memoria de grandes conjuntos de datos.
  • c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
  • d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

a)

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

b)

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

c)

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

d)

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

a)

df.resample('M').sum()

b)

df.resample('D').sum('M')

c)


df.resample('W').groupby('M').sum()

d)

df.groupby('M').resample('D').sum()

Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!

Preguntas

Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

  • a) Pandas ofrece capacidades de visualización integradas.
  • b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
  • c) Pandas escala automáticamente los modelos de aprendizaje automático.
  • d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

a)

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

b)

df.filter(SalesAmount > 200 & Store == 'A')

c)

df.query('SalesAmount > 200' & 'Store == "A"')

d)

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

  • a) Suma elemento a elemento entre arreglos.
  • b) Multiplicación de matrices.
  • c) Iterar sobre elementos individuales con un bucle en Python.
  • d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

  • a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
  • b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
  • c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
  • d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

a)

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

b)

df.filter('Category').groupby('PurchaseAmount').sum().mean()

c)

df.pivot('Category').sum().mean('PurchaseAmount')

d)

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

  • a) Permite visualizar automáticamente tus datos después de cada paso.
  • b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
  • c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
  • d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

  • a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
  • b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
  • c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
  • d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

  • a) Aumenta la precisión de los cálculos.
  • b) Reduce el uso de memoria de grandes conjuntos de datos.
  • c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
  • d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

a)

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

b)

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

c)

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

d)

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

a)

df.resample('M').sum()

b)

df.resample('D').sum('M')

c)


df.resample('W').groupby('M').sum()

d)

df.groupby('M').resample('D').sum()

Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!

Preguntas

Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

  • a) Pandas ofrece capacidades de visualización integradas.
  • b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
  • c) Pandas escala automáticamente los modelos de aprendizaje automático.
  • d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

a)

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

b)

df.filter(SalesAmount > 200 & Store == 'A')

c)

df.query('SalesAmount > 200' & 'Store == "A"')

d)

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

  • a) Suma elemento a elemento entre arreglos.
  • b) Multiplicación de matrices.
  • c) Iterar sobre elementos individuales con un bucle en Python.
  • d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

  • a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
  • b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
  • c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
  • d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

a)

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

b)

df.filter('Category').groupby('PurchaseAmount').sum().mean()

c)

df.pivot('Category').sum().mean('PurchaseAmount')

d)

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

  • a) Permite visualizar automáticamente tus datos después de cada paso.
  • b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
  • c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
  • d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

  • a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
  • b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
  • c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
  • d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

  • a) Aumenta la precisión de los cálculos.
  • b) Reduce el uso de memoria de grandes conjuntos de datos.
  • c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
  • d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

a)

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

b)

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

c)

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

d)

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

a)

df.resample('M').sum()

b)

df.resample('D').sum('M')

c)


df.resample('W').groupby('M').sum()

d)

df.groupby('M').resample('D').sum()

Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!