6.1 DataFrames y Series

Bienvenido al Capítulo 6, donde exploraremos el asombroso mundo de Pandas, una biblioteca esencial para el análisis de datos en Python. Pandas es una herramienta poderosa que proporciona una amplia gama de capacidades de manipulación de datos, adaptándose a una variedad de formatos y tipos de datos. No solo puede ayudarte con la limpieza y transformación de datos, sino que también puede ayudar en la creación de visualizaciones impresionantes que pueden mejorar significativamente tu análisis de datos.

A medida que nos adentramos más en este capítulo, comenzaremos presentándote los conceptos básicos de Pandas, específicamente las estructuras de datos DataFrame y Series. Estas estructuras serán tus aliadas más cercanas cuando se trata de manejar tareas complejas de análisis de datos. Al comprender cómo utilizar estas estructuras, podrás realizar una amplia gama de manipulaciones de datos, incluida la combinación, filtrado y transformación de datos. Además, también cubriremos algunas de las funciones más avanzadas de Pandas, incluida la agrupación, pivoteo y remodelación de datos.

Ya seas un principiante o un analista de datos experimentado, este capítulo te ayudará a desbloquear todo el potencial de Pandas. ¡Así que prepárate para embarcarte en un emocionante viaje que te proporcionará las habilidades y el conocimiento necesarios para convertirte en un maestro del análisis de datos!

Pandas es una poderosa biblioteca para la manipulación de datos en Python. Proporciona dos estructuras de datos principales: DataFrame y Series, diseñadas para ayudarte a administrar y manipular datos de manera efectiva.

En el mundo de la ciencia de datos, es esencial tener una buena comprensión de estas dos estructuras de datos. Un DataFrame es una tabla bidimensional, donde cada columna puede tener un tipo de datos diferente y cada fila representa un solo registro. Es similar a una hoja de cálculo en Excel, pero con funcionalidades más avanzadas. Por otro lado, una Serie es un objeto unidimensional similar a un array que puede contener cualquier tipo de datos, incluidos enteros, flotantes y cadenas de texto.

Tanto DataFrame como Series ofrecen una amplia gama de funciones y métodos integrados que simplifican las tareas de manipulación de datos. Por ejemplo, puedes usarlos para filtrar, agrupar, ordenar, unir y fusionar datos, entre otras cosas. También proporcionan una sintaxis intuitiva y sencilla que facilita la realización de operaciones complejas con un código mínimo.

En conclusión, si deseas ser competente en la manipulación de datos con Python, necesitas dominar DataFrame y Series. Al entender sus diferencias y capacidades, podrás aprovechar todo su potencial y llevar tus habilidades de análisis de datos al siguiente nivel.

6.1.1 DataFrame

Un DataFrame es una estructura de datos altamente versátil que es básicamente una estructura de datos tabular bidimensional, mutable en tamaño y potencialmente heterogénea con ejes etiquetados (filas y columnas).

Similar a una hoja de cálculo o una tabla SQL, un DataFrame proporciona una manera conveniente de almacenar y manipular datos. Sin embargo, a diferencia de una hoja de cálculo, un DataFrame puede manejar un conjunto de datos mucho más grande y está altamente optimizado para tareas de análisis de datos. Además, los DataFrames son ampliamente utilizados en el campo de la ciencia de datos y se consideran una herramienta esencial para llevar a cabo diversas tareas de análisis de datos, incluida la manipulación de datos, limpieza de datos, transformación de datos y visualización de datos.

En general, un DataFrame es una estructura de datos poderosa y flexible que es una herramienta indispensable para cualquier analista de datos o científico de datos.

Así es como se crea un DataFrame básico:

import pandas as pd

# Create a DataFrame from a dictionary
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'Occupation': ['Engineer', 'Doctor', 'Artist']}
df = pd.DataFrame(data)

# Display the DataFrame
print(df)

Salida:

      Name  Age Occupation
0    Alice   25   Engineer
1      Bob   30     Doctor
2  Charlie   35     Artist

6.1.2 Serie

Una Serie es un tipo de estructura de datos en la biblioteca de Pandas. Es un array unidimensional etiquetado que contiene datos de cualquier tipo. Se puede pensar en ella como una sola columna en un DataFrame. Esto significa que la Serie se puede utilizar para almacenar una sola columna de datos, como una lista de números, nombres o cualquier otro tipo de datos. En Pandas, puedes crear una Serie a partir de una lista, array o diccionario.

La Serie puede ser muy útil en el análisis y manipulación de datos, ya que te permite realizar diversas operaciones en los datos almacenados en ella. Por ejemplo, puedes ordenar los datos, filtrarlos o agruparlos en función de ciertas condiciones.

Además, también puedes realizar operaciones matemáticas en los datos, como adición, sustracción, multiplicación y división. En general, la Serie es una estructura de datos esencial en Pandas que puede ayudarte a trabajar con datos de una manera más eficiente y efectiva.

Ejemplo:

# Create a Series from a list
ages = [25, 30, 35]
age_series = pd.Series(ages, name='Age')

# Display the Series
print(age_series)

Salida:

0    25
1    30
2    35
Name: Age, dtype: int64

6.1.3 DataFrame vs Serie

Si bien tanto los DataFrames como las Series son altamente flexibles y versátiles, existen varias diferencias importantes entre ambos que pueden influir en cuál elegir utilizar según tus necesidades específicas.

Por ejemplo, si bien las Series son más eficientes en memoria para datos de una sola columna y a menudo se devuelven cuando consultas una sola columna de un DataFrame, los DataFrames ofrecen más funcionalidades que pueden ser útiles en ciertos escenarios. Por ejemplo, los DataFrames permiten múltiples columnas con diferentes tipos de datos, lo que puede ser muy útil al trabajar con conjuntos de datos complejos.

Además, los DataFrames tienen métodos incorporados para fusionar y unir datos de diferentes fuentes, lo que puede ahorrar tiempo y esfuerzo al tratar con conjuntos de datos grandes. Finalmente, otra ventaja de los DataFrames sobre las Series es que se pueden exportar fácilmente a una variedad de formatos de archivo, incluidos CSV y Excel, lo que puede ser muy útil al compartir datos con otros o integrarlos en otras aplicaciones.

Así es como puedes seleccionar una columna como una Serie de un DataFrame:

# Select the 'Age' column from the DataFrame
age_from_df = df['Age']

# Display the Series
print(age_from_df)

Salida:

0    25
1    30
2    35
Name: Age, dtype: int64

6.1.4 Métodos y Atributos de DataFrame

Cuando trabajas con DataFrames, no siempre necesitas sumergirte en los datos para obtener información. Hay varias formas de conocer un DataFrame sin siquiera mirar su contenido. Por ejemplo, puedes verificar la forma del DataFrame para ver cuántas filas y columnas contiene.

También puedes verificar los tipos de datos de cada columna, lo que puede proporcionar pistas sobre la naturaleza de los datos. Además, puedes usar el método info() para obtener un resumen de las columnas del DataFrame, incluidos sus tipos de datos y la cantidad de valores no nulos. Al explorar estas características de un DataFrame, puedes comprender mejor su estructura y tomar decisiones más informadas sobre cómo manipular o analizar los datos que contiene.

Aquí tienes algunos métodos para explorar la información básica:

df.head(): Devuelve las primeras 5 filas del DataFrame.
df.tail(): Devuelve las últimas 5 filas del DataFrame.
df.info(): Proporciona un resumen conciso del DataFrame, incluidos los tipos de datos y los valores no nulos.
df.describe(): Ofrece información estadística sobre las columnas numéricas.

Ejemplo:

# Get the first 5 rows
print(df.head())

# Get summary information
print(df.info())

# Get statistical information
print(df.describe())

6.1.5 Métodos y Atributos de Series

Cuando trabajas con series, descubrirás que no solo proporcionan una variedad de tipos de datos diferentes para trabajar, sino que también vienen con una amplia variedad de métodos y atributos que pueden hacer que la manipulación y el análisis de datos sean más eficientes y fluidos.

Al aprovechar estas herramientas y funciones integradas, puedes ahorrar tiempo y esfuerzo mientras te aseguras de que tus datos sean precisos y fáciles de manipular. Ya seas un analista de datos experimentado o un principiante que recién comienza, dominar el uso de series es un paso esencial para convertirte en un profesional de datos más efectivo y productivo.

Algunos importantes son:

s.size: Devuelve el número de elementos en la Serie.
s.mean(): Devuelve el valor medio.
s.std(): Devuelve la desviación estándar.
s.unique(): Devuelve los valores únicos.

Ejemplo:

# Get the size of the Series
print(age_series.size)

# Get the mean age
print(age_series.mean())

# Get unique ages
print(age_series.unique())

6.1.6 Cambio de Tipos de Datos

En algunos casos, puede ser necesario alterar los tipos de datos de columnas o Series por diversas razones. Por ejemplo, puede ser esencial hacerlo para un procesamiento más eficiente o para facilitar la ejecución de operaciones específicas.

Además, estos cambios pueden ser necesarios para abordar las limitaciones de un entorno particular, como cuando se trabaja con memoria o potencia de procesamiento limitadas. En tales casos, es importante considerar cuidadosamente las implicaciones de los cambios realizados y probar minuciosamente los tipos de datos revisados para asegurarse de que sigan respaldando los resultados deseados.

En DataFrame:

# Change the data type of a single column
df['column_name'] = df['column_name'].astype('new_data_type')

# Change data types of multiple columns
df = df.astype({'column1': 'new_data_type1', 'column2': 'new_data_type2'})

En Series:

# Changing the Series data type
s = s.astype('new_data_type')

Por ejemplo, si tienes un DataFrame df y quieres cambiar el tipo de dato de la columna de edad a flotante:

df['age'] = df['age'].astype('float')