Pandas - Análisis de marcos de datos
Ver los datos
Uno de los métodos más utilizados para obtener una descripción general rápida del DataFrame es el head()
método.
El head()
método devuelve los encabezados y un número específico de filas, comenzando desde arriba.
Ejemplo
Obtenga una descripción general rápida imprimiendo las primeras 10 filas del DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
En nuestros ejemplos, usaremos un archivo CSV llamado 'data.csv'.
Descargue data.csv o abra data.csv en su navegador.
Nota: si no se especifica el número de filas, el head()
método devolverá las 5 primeras filas.
Ejemplo
Imprima las primeras 5 filas del DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
También hay un tail()
método para ver las
últimas filas del DataFrame.
El tail()
método devuelve los encabezados y un número específico de filas, comenzando desde abajo.
Ejemplo
Imprima las últimas 5 filas del DataFrame:
print(df.tail())
¡Obtener la certificación!
$10 INSCRÍBETE
Información sobre los datos
El objeto DataFrames tiene un método llamado info()
, que le brinda más información sobre el conjunto de datos.
Ejemplo
Imprimir información sobre los datos:
print(df.info())
Resultado
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Resultado explicado
El resultado nos dice que hay 169 filas y 4 columnas:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
Y el nombre de cada columna, con el tipo de dato:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Valores nulos
El info()
método también nos dice cuántos valores no nulos hay presentes en cada columna, y en nuestro conjunto de datos parece que hay 164 de 169 valores no nulos en la columna "Calorías".
Lo que significa que hay 5 filas sin ningún valor en la columna "Calorías", por el motivo que sea.
Los valores vacíos, o valores nulos, pueden ser malos al analizar datos, y debería considerar eliminar filas con valores vacíos. Este es un paso hacia lo que se llama limpieza de datos , y aprenderá más sobre eso en los próximos capítulos.