Ciencia de datos ágil: visualización de datos

La visualización de datos juega un papel muy importante en la ciencia de datos. Podemos considerar la visualización de datos como un módulo de ciencia de datos. Data Science incluye más que construir modelos predictivos. Incluye la explicación de modelos y su uso para comprender datos y tomar decisiones. La visualización de datos es una parte integral de la presentación de datos de la manera más convincente.

Desde el punto de vista de la ciencia de datos, la visualización de datos es una característica destacada que muestra los cambios y las tendencias.

Considere las siguientes pautas para una visualización de datos efectiva:

  • Datos de posición a lo largo de la escala común.

  • El uso de barras es más efectivo en comparación de círculos y cuadrados.

  • Se debe usar un color adecuado para los diagramas de dispersión.

  • Use un gráfico circular para mostrar proporciones.

  • La visualización Sunburst es más efectiva para trazados jerárquicos.

Agile necesita un lenguaje de script simple para la visualización de datos y con la ciencia de datos en colaboración, "Python" es el lenguaje sugerido para la visualización de datos.

Ejemplo 1

El siguiente ejemplo demuestra la visualización de datos del PIB calculado en años específicos. "Matplotlib" es la mejor biblioteca para la visualización de datos en Python. La instalación de esta biblioteca se muestra a continuación:

Demuestra visualización de datos

Considere el siguiente código para entender esto:

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Salida

El código anterior genera el siguiente resultado:

El código genera

Hay muchas formas de personalizar los gráficos con etiquetas de eje, estilos de línea y marcadores de puntos. Centrémonos en el siguiente ejemplo que demuestra la mejor visualización de datos. Estos resultados se pueden usar para obtener mejores resultados.

Ejemplo 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Salida

El código anterior genera el siguiente resultado:

El código genera el segundo