Pandas - Análisis de marcos de datos


Ver los datos

Uno de los métodos más utilizados para obtener una descripción general rápida del DataFrame es el head()método.

El head()método devuelve los encabezados y un número específico de filas, comenzando desde arriba.

Ejemplo

Obtenga una descripción general rápida imprimiendo las primeras 10 filas del DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

En nuestros ejemplos, usaremos un archivo CSV llamado 'data.csv'.

Descargue data.csv o abra data.csv en su navegador.

Nota: si no se especifica el número de filas, el head()método devolverá las 5 primeras filas.

Ejemplo

Imprima las primeras 5 filas del DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

También hay un tail()método para ver las últimas filas del DataFrame.

El tail()método devuelve los encabezados y un número específico de filas, comenzando desde abajo.

Ejemplo

Imprima las últimas 5 filas del DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

¡Obtener la certificación!

¡Complete los módulos de Pandas, haga los ejercicios, tome el examen y obtendrá la certificación de w3schools!

$10 INSCRÍBETE

Información sobre los datos

El objeto DataFrames tiene un método llamado info(), que le brinda más información sobre el conjunto de datos.

Ejemplo

Imprimir información sobre los datos:

print(df.info()) 

Resultado

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Resultado explicado

El resultado nos dice que hay 169 filas y 4 columnas:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Y el nombre de cada columna, con el tipo de dato:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Valores nulos

El info()método también nos dice cuántos valores no nulos hay presentes en cada columna, y en nuestro conjunto de datos parece que hay 164 de 169 valores no nulos en la columna "Calorías".

Lo que significa que hay 5 filas sin ningún valor en la columna "Calorías", por el motivo que sea.

Los valores vacíos, o valores nulos, pueden ser malos al analizar datos, y debería considerar eliminar filas con valores vacíos. Este es un paso hacia lo que se llama limpieza de datos , y aprenderá más sobre eso en los próximos capítulos.