Extracción de características con PySpark

En este capítulo, aprenderemos sobre la aplicación de las funciones de extracción con PySpark en Agile Data Science.

Descripción general de Spark

Apache Spark se puede definir como un marco de procesamiento rápido en tiempo real. Realiza cálculos para analizar datos en tiempo real. Apache Spark se presenta como sistema de procesamiento de flujo en tiempo real y también puede encargarse del procesamiento por lotes. Apache Spark admite consultas interactivas y algoritmos iterativos.

Spark está escrito en "lenguaje de programación Scala".

PySpark se puede considerar como una combinación de Python con Spark. PySpark ofrece el shell PySpark, que vincula la API de Python al núcleo de Spark e inicializa el contexto de Spark. La mayoría de los científicos de datos usan PySpark para rastrear características como se discutió en el capítulo anterior.

En este ejemplo, nos enfocaremos en las transformaciones para construir un conjunto de datos llamado conteos y guardarlo en un archivo en particular.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

Con PySpark, un usuario puede trabajar con RDD en lenguaje de programación python. La biblioteca incorporada, que cubre los conceptos básicos de los documentos y componentes basados en datos, ayuda en esto.