Opleiding: Training Apache Spark
Tijdens de training Apache Spark maak je kennis met alle aspecten van het open source framework. Je leert o.a. meer over RDDs, HDSF en Spark streaming en applicaties.
Algemene omschrijving
Apache Spark is een krachtige, open-source processing engine voor Big Data in het Hadoop cluster. Met Spark is het mogelijk om datasets die verschillen in aard (bijv. grafieken en tekst) en bron (batch vs. real-time streaming data) te verwerken.
De grootste voordelen van Apache Spark zijn snelheid, gebruiksgemak, het combineren van SQL, streaming en complexe analyses en het feit data Spark overal kan draaien.
Tijdens de training Apache Spark
Tijdens de training Apache Spark geven we allereerst een inleiding op het framework. Daarna leer je hoe je moet werken met RDDs en HDFS. Ook gaan we in op parallel processing en het bouwen van Spark applicaties. Tenslotte leer je meer over Spark streaming, Spark algoritmen en verbeteren van prestaties van het framework.
Resultaat van de training Apache Spark
Na de training Apache Spark heb je kennis van RDDs, HDFS en Spark algoritmen. Daarnaast snap je hoe parallel processing in zijn werk gaat en hoe je applicaties bouwt. Bovendien weet je na de Spark training hoe je de prestaties van Apache Spark verbetert en problemen detecteert.
Gerelateerd
- Cursus Apache Mahout
- Cursus Apache Hadoop
- Cursus Apache Pig
Programma
Tijdens de training Apache Spark behandelen we de volgende modulen:
- Big Data en Distributed Computing
-
- Introductie tot Big Data
- Uitdagingen bij Big Data-verwerking
- Overzicht van Distributed Computing
- Historische context en opkomst van Apache Spark
- Overzicht van Apache Spark
-
- Spark versus Hadoop
- Spark Ecosysteem en Componenten (Spark SQL, Spark Streaming, MLlib, GraphX)
- Kernconcepten van Spark (RDD's, DAG, workflow)
- Spark Architectuur (Driver, Executors,Task Distribution)
- Spark omgeving
-
- Spark installeren en configureren
- Spark shell (Scala, Python, SQL)
- Jupyter, PySpark
- Werken met RDDs (Resilient Distributed Datasets)
-
- Creëren van RDDs
- Transformeren van RDD
- Key-Value PairRDDs
- Map-Reduce
- SparkSQL en Dataframes
-
- Wat is een dataframe?
- Data import en export
- Dataframe Operations
- Wat is SparkSQL?
- SQL Context en zijn mogelijkheden
- Hoe te gebruiken
- Samenwerken met RDD's
- Datasource en sinks
-
- Lezen van en schrijven naar verschillende gegevensbronnen (JSON, CSV, Parquet, etc.)
- DataFrame Bewerkingen - Transformaties en acties
- Partitioning
- Spark Streaming
-
- Inleiding Spark Streaming
- Steaming Concepten (DStreams, Windows, ...)
- Ontwikkelen van Spark Streaming applicatie
- Spark Machine Learning
-
- Machine Learning Algoritmen
- Classification, Clustering, Regression
- Ontwikkelen van Spark Machine Learning applicatie
- Spark GraphX
-
- Introductie Graph Theorie
- Overzicht van GraphX
- Ontwikkelen van Graph Processing applicatie