Ciencia de datos : marco de datos de Python


Crear un DataFrame con Pandas

Un marco de datos es una representación estructurada de datos.

Definamos un marco de datos con 3 columnas y 5 filas con números ficticios:

Ejemplo

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Ejemplo explicado

  • Importar la biblioteca Pandas como pd
  • Defina datos con columna y filas en una variable llamada d
  • Cree un marco de datos usando la función pd.DataFrame()
  • El marco de datos contiene 3 columnas y 5 filas
  • Imprime la salida del marco de datos con la función print()

Escribimos pd. delante de DataFrame() para que Python sepa que queremos activar la función DataFrame() de la biblioteca de Pandas.

¡Tenga en cuenta la D y la F mayúsculas en DataFrame!


Interpretación de la salida

Esta es la salida:

Salida de marco de datos

Vemos que "col1", "col2" y "col3" son los nombres de las columnas.

No se confunda con los números verticales que van del 0 al 4. Nos dan la información sobre la posición de las filas.

En Python, la numeración de filas comienza con cero.

Ahora, podemos usar Python para contar las columnas y filas.

Podemos usar df.shape[1] para encontrar el número de columnas:

Ejemplo

Cuente el número de columnas:

count_column = df.shape[1]
print(count_column)

Podemos usar df.shape[0] para encontrar el número de filas:

Ejemplo

Cuente el número de filas:

count_row = df.shape[0]
print(count_row)

¿Por qué no podemos simplemente contar las filas y las columnas nosotros mismos?

Si trabajamos con conjuntos de datos más grandes con muchas columnas y filas, será confuso contarlo usted mismo. Te arriesgas a contarlo mal. Si usamos correctamente las funciones integradas en Python, aseguramos que el conteo es correcto.