Cuestionario Parte 1: Estableciendo el Escenario para un Análisis Avanzado
Preguntas
Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.
Pregunta 1: Manipulación Avanzada de Datos con Pandas
¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?
- a) Pandas ofrece capacidades de visualización integradas.
- b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
- c) Pandas escala automáticamente los modelos de aprendizaje automático.
- d) Pandas se integra mejor con bucles de Python para la manipulación de datos.
Pregunta 2: Filtrado Eficiente con Pandas
¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount
sea mayor que 200 y la columna Store
sea igual a 'A'?
a)
df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]
b)
df.filter(SalesAmount > 200 & Store == 'A')
c)
df.query('SalesAmount > 200' & 'Store == "A"')
d)
df.where('SalesAmount' > 200 and df['Store'] == 'A')
Pregunta 3: Rendimiento con NumPy
¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?
- a) Suma elemento a elemento entre arreglos.
- b) Multiplicación de matrices.
- c) Iterar sobre elementos individuales con un bucle en Python.
- d) Aplicar transformaciones matemáticas (por ejemplo,
np.log
).
Pregunta 4: Broadcasting en NumPy
¿Qué significa el término broadcasting en NumPy?
- a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
- b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
- c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
- d) Un método para manejar valores faltantes en arreglos de NumPy.
Pregunta 5: Agrupación y Agregación en Pandas
Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount
agrupado por Category
?
import pandas as pd
df = pd.DataFrame({
'CustomerID': [1, 2, 3, 4],
'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
'PurchaseAmount': [200, 100, 300, 400]
})
a)
df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})
b)
df.filter('Category').groupby('PurchaseAmount').sum().mean()
c)
df.pivot('Category').sum().mean('PurchaseAmount')
d)
df.sum().groupby('PurchaseAmount').mean('Category')
Pregunta 6: Pipelines de Scikit-learn
¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?
- a) Permite visualizar automáticamente tus datos después de cada paso.
- b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
- c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
- d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.
Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático
¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?
- a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
- b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
- c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
- d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.
Pregunta 8: Optimización de Memoria en Pandas
¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?
- a) Aumenta la precisión de los cálculos.
- b) Reduce el uso de memoria de grandes conjuntos de datos.
- c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
- d) Convierte automáticamente las columnas numéricas en columnas categóricas.
Pregunta 9: Creación de Características de Interacción
En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount
y Discount
usando Pandas y NumPy?
a)
df['Interaction'] = df['PurchaseAmount'] + df['Discount']
b)
df['Interaction'] = df['PurchaseAmount'] * df['Discount']
c)
df['Interaction'] = df['PurchaseAmount'] / df['Discount']
d)
df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])
Pregunta 10: Remuestreo de Datos de Series Temporales
Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?
a)
df.resample('M').sum()
b)
df.resample('D').sum('M')
c)
df.resample('W').groupby('M').sum()
d)
df.groupby('M').resample('D').sum()
Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!
Preguntas
Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.
Pregunta 1: Manipulación Avanzada de Datos con Pandas
¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?
- a) Pandas ofrece capacidades de visualización integradas.
- b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
- c) Pandas escala automáticamente los modelos de aprendizaje automático.
- d) Pandas se integra mejor con bucles de Python para la manipulación de datos.
Pregunta 2: Filtrado Eficiente con Pandas
¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount
sea mayor que 200 y la columna Store
sea igual a 'A'?
a)
df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]
b)
df.filter(SalesAmount > 200 & Store == 'A')
c)
df.query('SalesAmount > 200' & 'Store == "A"')
d)
df.where('SalesAmount' > 200 and df['Store'] == 'A')
Pregunta 3: Rendimiento con NumPy
¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?
- a) Suma elemento a elemento entre arreglos.
- b) Multiplicación de matrices.
- c) Iterar sobre elementos individuales con un bucle en Python.
- d) Aplicar transformaciones matemáticas (por ejemplo,
np.log
).
Pregunta 4: Broadcasting en NumPy
¿Qué significa el término broadcasting en NumPy?
- a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
- b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
- c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
- d) Un método para manejar valores faltantes en arreglos de NumPy.
Pregunta 5: Agrupación y Agregación en Pandas
Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount
agrupado por Category
?
import pandas as pd
df = pd.DataFrame({
'CustomerID': [1, 2, 3, 4],
'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
'PurchaseAmount': [200, 100, 300, 400]
})
a)
df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})
b)
df.filter('Category').groupby('PurchaseAmount').sum().mean()
c)
df.pivot('Category').sum().mean('PurchaseAmount')
d)
df.sum().groupby('PurchaseAmount').mean('Category')
Pregunta 6: Pipelines de Scikit-learn
¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?
- a) Permite visualizar automáticamente tus datos después de cada paso.
- b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
- c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
- d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.
Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático
¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?
- a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
- b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
- c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
- d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.
Pregunta 8: Optimización de Memoria en Pandas
¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?
- a) Aumenta la precisión de los cálculos.
- b) Reduce el uso de memoria de grandes conjuntos de datos.
- c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
- d) Convierte automáticamente las columnas numéricas en columnas categóricas.
Pregunta 9: Creación de Características de Interacción
En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount
y Discount
usando Pandas y NumPy?
a)
df['Interaction'] = df['PurchaseAmount'] + df['Discount']
b)
df['Interaction'] = df['PurchaseAmount'] * df['Discount']
c)
df['Interaction'] = df['PurchaseAmount'] / df['Discount']
d)
df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])
Pregunta 10: Remuestreo de Datos de Series Temporales
Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?
a)
df.resample('M').sum()
b)
df.resample('D').sum('M')
c)
df.resample('W').groupby('M').sum()
d)
df.groupby('M').resample('D').sum()
Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!
Preguntas
Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.
Pregunta 1: Manipulación Avanzada de Datos con Pandas
¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?
- a) Pandas ofrece capacidades de visualización integradas.
- b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
- c) Pandas escala automáticamente los modelos de aprendizaje automático.
- d) Pandas se integra mejor con bucles de Python para la manipulación de datos.
Pregunta 2: Filtrado Eficiente con Pandas
¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount
sea mayor que 200 y la columna Store
sea igual a 'A'?
a)
df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]
b)
df.filter(SalesAmount > 200 & Store == 'A')
c)
df.query('SalesAmount > 200' & 'Store == "A"')
d)
df.where('SalesAmount' > 200 and df['Store'] == 'A')
Pregunta 3: Rendimiento con NumPy
¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?
- a) Suma elemento a elemento entre arreglos.
- b) Multiplicación de matrices.
- c) Iterar sobre elementos individuales con un bucle en Python.
- d) Aplicar transformaciones matemáticas (por ejemplo,
np.log
).
Pregunta 4: Broadcasting en NumPy
¿Qué significa el término broadcasting en NumPy?
- a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
- b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
- c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
- d) Un método para manejar valores faltantes en arreglos de NumPy.
Pregunta 5: Agrupación y Agregación en Pandas
Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount
agrupado por Category
?
import pandas as pd
df = pd.DataFrame({
'CustomerID': [1, 2, 3, 4],
'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
'PurchaseAmount': [200, 100, 300, 400]
})
a)
df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})
b)
df.filter('Category').groupby('PurchaseAmount').sum().mean()
c)
df.pivot('Category').sum().mean('PurchaseAmount')
d)
df.sum().groupby('PurchaseAmount').mean('Category')
Pregunta 6: Pipelines de Scikit-learn
¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?
- a) Permite visualizar automáticamente tus datos después de cada paso.
- b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
- c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
- d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.
Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático
¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?
- a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
- b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
- c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
- d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.
Pregunta 8: Optimización de Memoria en Pandas
¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?
- a) Aumenta la precisión de los cálculos.
- b) Reduce el uso de memoria de grandes conjuntos de datos.
- c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
- d) Convierte automáticamente las columnas numéricas en columnas categóricas.
Pregunta 9: Creación de Características de Interacción
En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount
y Discount
usando Pandas y NumPy?
a)
df['Interaction'] = df['PurchaseAmount'] + df['Discount']
b)
df['Interaction'] = df['PurchaseAmount'] * df['Discount']
c)
df['Interaction'] = df['PurchaseAmount'] / df['Discount']
d)
df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])
Pregunta 10: Remuestreo de Datos de Series Temporales
Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?
a)
df.resample('M').sum()
b)
df.resample('D').sum('M')
c)
df.resample('W').groupby('M').sum()
d)
df.groupby('M').resample('D').sum()
Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!
Preguntas
Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.
Pregunta 1: Manipulación Avanzada de Datos con Pandas
¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?
- a) Pandas ofrece capacidades de visualización integradas.
- b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
- c) Pandas escala automáticamente los modelos de aprendizaje automático.
- d) Pandas se integra mejor con bucles de Python para la manipulación de datos.
Pregunta 2: Filtrado Eficiente con Pandas
¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount
sea mayor que 200 y la columna Store
sea igual a 'A'?
a)
df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]
b)
df.filter(SalesAmount > 200 & Store == 'A')
c)
df.query('SalesAmount > 200' & 'Store == "A"')
d)
df.where('SalesAmount' > 200 and df['Store'] == 'A')
Pregunta 3: Rendimiento con NumPy
¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?
- a) Suma elemento a elemento entre arreglos.
- b) Multiplicación de matrices.
- c) Iterar sobre elementos individuales con un bucle en Python.
- d) Aplicar transformaciones matemáticas (por ejemplo,
np.log
).
Pregunta 4: Broadcasting en NumPy
¿Qué significa el término broadcasting en NumPy?
- a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
- b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
- c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
- d) Un método para manejar valores faltantes en arreglos de NumPy.
Pregunta 5: Agrupación y Agregación en Pandas
Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount
agrupado por Category
?
import pandas as pd
df = pd.DataFrame({
'CustomerID': [1, 2, 3, 4],
'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
'PurchaseAmount': [200, 100, 300, 400]
})
a)
df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})
b)
df.filter('Category').groupby('PurchaseAmount').sum().mean()
c)
df.pivot('Category').sum().mean('PurchaseAmount')
d)
df.sum().groupby('PurchaseAmount').mean('Category')
Pregunta 6: Pipelines de Scikit-learn
¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?
- a) Permite visualizar automáticamente tus datos después de cada paso.
- b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
- c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
- d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.
Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático
¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?
- a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
- b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
- c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
- d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.
Pregunta 8: Optimización de Memoria en Pandas
¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?
- a) Aumenta la precisión de los cálculos.
- b) Reduce el uso de memoria de grandes conjuntos de datos.
- c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
- d) Convierte automáticamente las columnas numéricas en columnas categóricas.
Pregunta 9: Creación de Características de Interacción
En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount
y Discount
usando Pandas y NumPy?
a)
df['Interaction'] = df['PurchaseAmount'] + df['Discount']
b)
df['Interaction'] = df['PurchaseAmount'] * df['Discount']
c)
df['Interaction'] = df['PurchaseAmount'] / df['Discount']
d)
df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])
Pregunta 10: Remuestreo de Datos de Series Temporales
Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?
a)
df.resample('M').sum()
b)
df.resample('D').sum('M')
c)
df.resample('W').groupby('M').sum()
d)
df.groupby('M').resample('D').sum()
Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!