Distribución aleatoria de datos


¿Qué es la distribución de datos?

La distribución de datos es una lista de todos los valores posibles y la frecuencia con la que se produce cada valor.

Estas listas son importantes cuando se trabaja con estadísticas y ciencia de datos.

El módulo aleatorio ofrece métodos que devuelven distribuciones de datos generadas aleatoriamente.


Distribución aleatoria

Una distribución aleatoria es un conjunto de números aleatorios que siguen una determinada función de densidad de probabilidad .

Función de densidad de probabilidad: una función que describe una probabilidad continua. es decir, probabilidad de todos los valores en una matriz.

Podemos generar números aleatorios basados ​​en probabilidades definidas utilizando el choice()método del randommódulo.

El choice()método nos permite especificar la probabilidad para cada valor.

La probabilidad se establece mediante un número entre 0 y 1, donde 0 significa que el valor nunca ocurrirá y 1 significa que el valor siempre ocurrirá.

Ejemplo

Genere una matriz 1-D que contenga 100 valores, donde cada valor debe ser 3, 5, 7 o 9.

La probabilidad de que el valor sea 3 se establece en 0,1

La probabilidad de que el valor sea 5 se establece en 0,3

La probabilidad de que el valor sea 7 se establece en 0,6

La probabilidad de que el valor sea 9 se establece en 0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x)

La suma de todos los números de probabilidad debe ser 1.

Incluso si ejecuta el ejemplo anterior 100 veces, el valor 9 nunca ocurrirá.

Puede devolver matrices de cualquier forma y tamaño especificando la forma en el sizeparámetro.

Ejemplo

El mismo ejemplo anterior, pero devuelve una matriz 2-D con 3 filas, cada una con 5 valores.

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x)