miércoles
12 FebMódulo 8: Procesamiento de Datos Escalable
Este módulo tiene lugar entre el 17 y el 27 de febrero y será impartido por Cristobal Barba González y Antonio Jesús Nebro Urbaneja.
El objetivo de este módulo es dar a conocer el sistema de procesamiento de datos escalable Apache Spark.
Se ofrecerá una visión global de las características de Spark y se trabajará con las dos APIs que ofrece en la actualidad, una basada en RDDs (Resilient Distributed Datasets) y otra basada en dataframes.
Tecnologías: Spark, Java, Python, Intellij Idea, PyCharm.
¿Qué es Apache Spark?
Apache Spark es un sistema de computación que se basa en Hadoop Map Reduce y que, principalmente, permite dividir o paralelizar el trabajo , ya que normalmente se instala en un clúster de máquina. La idea es que tengamos n máquinas, por ejemplo diez máquinas, y cada una de esas instancias va a tener instalada una versión de Apache Spark .
De esta manera, cuando tengamos que procesar una gran cantidad de datos, por ejemplo un fichero muy grande, podemos dividir el mismo en diez partes, y cada máquina se encargará de una décima parte del fichero, y al final lo uniremos. Con esto estamos ganando velocidad, y la velocidad es clave en el mundo del Big Data.
Sobre los Docentes
Cristóbal Barba González
(Investigador, UMA)
Experto en aplicación de la semántica al análisis del Big Data y en el desarrollo de metaheurísticas multiobjetivo. Imparte el módulo de procesamiento escalable de datos con Spark.
Antonio Jesús Nebro Urbaneja
(Catedrático de Universidad, UMA)
Experto en aplicación de técnicas de optimización y paralelismo en el contexto de aplicaciones del Big Data. Imparte los módulos de procesamiento de datos escalable: Spark, machine learning y streaming.
Deja un comentario