Click here to view the next lesson.

Cuestionario Parte 1: Estableciendo el Escenario para un Análisis Avanzado

Preguntas

Este cuestionario te ayudará a reforzar los conceptos clave que has aprendido en Capítulo 1: Introducción: Más allá de los Fundamentos y Capítulo 2: Optimización de Flujos de Trabajo de Datos. Responde las siguientes preguntas para evaluar tu comprensión del material.

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

a) Pandas ofrece capacidades de visualización integradas.
b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
c) Pandas escala automáticamente los modelos de aprendizaje automático.
d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

df.filter(SalesAmount > 200 & Store == 'A')

df.query('SalesAmount > 200' & 'Store == "A"')

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

a) Suma elemento a elemento entre arreglos.
b) Multiplicación de matrices.
c) Iterar sobre elementos individuales con un bucle en Python.
d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

df.filter('Category').groupby('PurchaseAmount').sum().mean()

df.pivot('Category').sum().mean('PurchaseAmount')

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

a) Permite visualizar automáticamente tus datos después de cada paso.
b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

a) Aumenta la precisión de los cálculos.
b) Reduce el uso de memoria de grandes conjuntos de datos.
c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

df.resample('M').sum()

df.resample('D').sum('M')


df.resample('W').groupby('M').sum()

df.groupby('M').resample('D').sum()

Estas preguntas cubren los temas clave de Parte 1: Preparando el Terreno para un Análisis Avanzado. Al responderlas, puedes evaluar tu comprensión de la manipulación avanzada de datos con Pandas, la optimización de rendimiento con NumPy y la creación de flujos de trabajo eficientes con Scikit-learn. ¡Sigue practicando y no dudes en repasar los capítulos si es necesario!

Preguntas

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

a) Pandas ofrece capacidades de visualización integradas.
b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
c) Pandas escala automáticamente los modelos de aprendizaje automático.
d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

df.filter(SalesAmount > 200 & Store == 'A')

df.query('SalesAmount > 200' & 'Store == "A"')

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

a) Suma elemento a elemento entre arreglos.
b) Multiplicación de matrices.
c) Iterar sobre elementos individuales con un bucle en Python.
d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

df.filter('Category').groupby('PurchaseAmount').sum().mean()

df.pivot('Category').sum().mean('PurchaseAmount')

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

a) Permite visualizar automáticamente tus datos después de cada paso.
b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

a) Aumenta la precisión de los cálculos.
b) Reduce el uso de memoria de grandes conjuntos de datos.
c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

df.resample('M').sum()

df.resample('D').sum('M')


df.resample('W').groupby('M').sum()

df.groupby('M').resample('D').sum()

Preguntas

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

a) Pandas ofrece capacidades de visualización integradas.
b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
c) Pandas escala automáticamente los modelos de aprendizaje automático.
d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

df.filter(SalesAmount > 200 & Store == 'A')

df.query('SalesAmount > 200' & 'Store == "A"')

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

a) Suma elemento a elemento entre arreglos.
b) Multiplicación de matrices.
c) Iterar sobre elementos individuales con un bucle en Python.
d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

df.filter('Category').groupby('PurchaseAmount').sum().mean()

df.pivot('Category').sum().mean('PurchaseAmount')

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

a) Permite visualizar automáticamente tus datos después de cada paso.
b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

a) Aumenta la precisión de los cálculos.
b) Reduce el uso de memoria de grandes conjuntos de datos.
c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

df.resample('M').sum()

df.resample('D').sum('M')


df.resample('W').groupby('M').sum()

df.groupby('M').resample('D').sum()

Preguntas

Pregunta 1: Manipulación Avanzada de Datos con Pandas

¿Cuál es la principal ventaja de usar Pandas para manipulación de datos en comparación con listas y diccionarios nativos de Python?

a) Pandas ofrece capacidades de visualización integradas.
b) Pandas puede manejar conjuntos de datos más grandes de manera eficiente con datos tabulares.
c) Pandas escala automáticamente los modelos de aprendizaje automático.
d) Pandas se integra mejor con bucles de Python para la manipulación de datos.

Pregunta 2: Filtrado Eficiente con Pandas

¿Cómo filtrarías un DataFrame de Pandas para incluir solo filas donde SalesAmount sea mayor que 200 y la columna Store sea igual a 'A'?

df[(df['SalesAmount'] > 200) & (df['Store'] == 'A')]

df.filter(SalesAmount > 200 & Store == 'A')

df.query('SalesAmount > 200' & 'Store == "A"')

df.where('SalesAmount' > 200 and df['Store'] == 'A')

Pregunta 3: Rendimiento con NumPy

¿Cuál de las siguientes operaciones no está optimizada por el enfoque vectorizado de NumPy?

a) Suma elemento a elemento entre arreglos.
b) Multiplicación de matrices.
c) Iterar sobre elementos individuales con un bucle en Python.
d) Aplicar transformaciones matemáticas (por ejemplo, np.log).

Pregunta 4: Broadcasting en NumPy

¿Qué significa el término broadcasting en NumPy?

a) La capacidad de NumPy para paralelizar operaciones automáticamente en múltiples procesadores.
b) El proceso por el cual NumPy aplica operaciones a arreglos de diferentes formas.
c) La técnica de optimización que usa NumPy para almacenar arreglos en memoria.
d) Un método para manejar valores faltantes en arreglos de NumPy.

Pregunta 5: Agrupación y Agregación en Pandas

Dado el siguiente DataFrame, ¿cómo calcularías el total y el promedio de PurchaseAmount agrupado por Category?

import pandas as pd

df = pd.DataFrame({
    'CustomerID': [1, 2, 3, 4],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Furniture'],
    'PurchaseAmount': [200, 100, 300, 400]
})

df.groupby('Category').agg({'PurchaseAmount': ['sum', 'mean']})

df.filter('Category').groupby('PurchaseAmount').sum().mean()

df.pivot('Category').sum().mean('PurchaseAmount')

df.sum().groupby('PurchaseAmount').mean('Category')

Pregunta 6: Pipelines de Scikit-learn

¿Cuál es uno de los beneficios clave de usar un Pipeline de Scikit-learn?

a) Permite visualizar automáticamente tus datos después de cada paso.
b) Permite encadenar múltiples pasos de preprocesamiento y entrenamiento de modelos en un solo flujo de trabajo.
c) Reduce el uso de memoria de grandes conjuntos de datos al comprimirlos.
d) Ajusta automáticamente los hiperparámetros para modelos de aprendizaje automático.

Pregunta 7: Fuga de Datos en Pipelines de Aprendizaje Automático

¿Qué es la fuga de datos y por qué es un problema al construir modelos de aprendizaje automático?

a) Se refiere a la duplicación innecesaria de datos durante el entrenamiento del modelo, causando un uso alto de memoria.
b) Ocurre cuando el modelo puede ver o aprender de los datos de prueba durante el entrenamiento, lo que lleva a resultados excesivamente optimistas.
c) Sucede cuando faltan características en el conjunto de datos, lo que reduce la precisión del modelo.
d) Se refiere a la corrupción de datos que ocurre cuando los conjuntos de datos se cargan incorrectamente en memoria.

Pregunta 8: Optimización de Memoria en Pandas

¿Cuál es el beneficio de downcasting de tipos de datos numéricos en Pandas?

a) Aumenta la precisión de los cálculos.
b) Reduce el uso de memoria de grandes conjuntos de datos.
c) Permite a Pandas almacenar tipos de datos de cadena de forma más eficiente.
d) Convierte automáticamente las columnas numéricas en columnas categóricas.

Pregunta 9: Creación de Características de Interacción

En la ingeniería de características, ¿cómo crearías una característica de interacción entre PurchaseAmount y Discount usando Pandas y NumPy?

df['Interaction'] = df['PurchaseAmount'] + df['Discount']

df['Interaction'] = df['PurchaseAmount'] * df['Discount']

df['Interaction'] = df['PurchaseAmount'] / df['Discount']

df['Interaction'] = np.add(df['PurchaseAmount'], df['Discount'])

Pregunta 10: Remuestreo de Datos de Series Temporales

Al trabajar con datos de series temporales en Pandas, ¿cómo remuestrearías datos diarios a datos mensuales y calcularías las ventas totales para cada mes?

df.resample('M').sum()

df.resample('D').sum('M')


df.resample('W').groupby('M').sum()

df.groupby('M').resample('D').sum()

Compra este libro