PySpark voor Big Data
placeAmsterdam 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Amsterdam, Dag 1 event 17 februari 2026, 09:30-16:30, Amsterdam, Dag 2 event 18 februari 2026, 09:30-16:30, Amsterdam, Dag 3 |
placeEindhoven 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Eindhoven, Dag 1 event 17 februari 2026, 09:30-16:30, Eindhoven, Dag 2 event 18 februari 2026, 09:30-16:30, Eindhoven, Dag 3 |
placeHouten 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Houten, Dag 1 event 17 februari 2026, 09:30-16:30, Houten, Dag 2 event 18 februari 2026, 09:30-16:30, Houten, Dag 3 |
computer Online: Online 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Online, Dag 1 event 17 februari 2026, 09:30-16:30, Online, Dag 2 event 18 februari 2026, 09:30-16:30, Online, Dag 3 |
placeRotterdam 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Rotterdam, Dag 1 event 17 februari 2026, 09:30-16:30, Rotterdam, Dag 2 event 18 februari 2026, 09:30-16:30, Rotterdam, Dag 3 |
placeZwolle 16 feb. 2026 tot 18 feb. 2026Toon rooster event 16 februari 2026, 09:30-16:30, Zwolle, Dag 1 event 17 februari 2026, 09:30-16:30, Zwolle, Dag 2 event 18 februari 2026, 09:30-16:30, Zwolle, Dag 3 |
placeAmsterdam 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Amsterdam, Dag 1 event 14 april 2026, 09:30-16:30, Amsterdam, Dag 2 event 15 april 2026, 09:30-16:30, Amsterdam, Dag 3 |
placeEindhoven 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Eindhoven, Dag 1 event 14 april 2026, 09:30-16:30, Eindhoven, Dag 2 event 15 april 2026, 09:30-16:30, Eindhoven, Dag 3 |
placeHouten 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Houten, Dag 1 event 14 april 2026, 09:30-16:30, Houten, Dag 2 event 15 april 2026, 09:30-16:30, Houten, Dag 3 |
computer Online: Online 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Online, Dag 1 event 14 april 2026, 09:30-16:30, Online, Dag 2 event 15 april 2026, 09:30-16:30, Online, Dag 3 |
placeRotterdam 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Rotterdam, Dag 1 event 14 april 2026, 09:30-16:30, Rotterdam, Dag 2 event 15 april 2026, 09:30-16:30, Rotterdam, Dag 3 |
placeZwolle 13 apr. 2026 tot 15 apr. 2026Toon rooster event 13 april 2026, 09:30-16:30, Zwolle, Dag 1 event 14 april 2026, 09:30-16:30, Zwolle, Dag 2 event 15 april 2026, 09:30-16:30, Zwolle, Dag 3 |
placeAmsterdam 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Amsterdam, Dag 1 event 16 juni 2026, 09:30-16:30, Amsterdam, Dag 2 event 17 juni 2026, 09:30-16:30, Amsterdam, Dag 3 |
placeEindhoven 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Eindhoven, Dag 1 event 16 juni 2026, 09:30-16:30, Eindhoven, Dag 2 event 17 juni 2026, 09:30-16:30, Eindhoven, Dag 3 |
placeHouten 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Houten, Dag 1 event 16 juni 2026, 09:30-16:30, Houten, Dag 2 event 17 juni 2026, 09:30-16:30, Houten, Dag 3 |
computer Online: Online 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Online, Dag 1 event 16 juni 2026, 09:30-16:30, Online, Dag 2 event 17 juni 2026, 09:30-16:30, Online, Dag 3 |
placeRotterdam 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Rotterdam, Dag 1 event 16 juni 2026, 09:30-16:30, Rotterdam, Dag 2 event 17 juni 2026, 09:30-16:30, Rotterdam, Dag 3 |
placeZwolle 15 jun. 2026 tot 17 jun. 2026Toon rooster event 15 juni 2026, 09:30-16:30, Zwolle, Dag 1 event 16 juni 2026, 09:30-16:30, Zwolle, Dag 2 event 17 juni 2026, 09:30-16:30, Zwolle, Dag 3 |
placeAmsterdam 17 aug. 2026 tot 19 aug. 2026Toon rooster event 17 augustus 2026, 09:30-16:30, Amsterdam, Dag 1 event 18 augustus 2026, 09:30-16:30, Amsterdam, Dag 2 event 19 augustus 2026, 09:30-16:30, Amsterdam, Dag 3 |
placeEindhoven 17 aug. 2026 tot 19 aug. 2026Toon rooster event 17 augustus 2026, 09:30-16:30, Eindhoven, Dag 1 event 18 augustus 2026, 09:30-16:30, Eindhoven, Dag 2 event 19 augustus 2026, 09:30-16:30, Eindhoven, Dag 3 |
Spark Architectuur
In de cursus PySpark voor Big Data komt aan de orde komt de architectuur van Spark, de Spark Cluster Manager en het verschil tussen Batch en Stream Processing.
Hadoop
Na een bespreking van het Hadoop Distributed File System wordt ingegaan op parallelle operaties and het werken met RDD's, Resilient Distributed Datasets. De configuratie van PySpark applicaties via SparkConf en SparkContext komt eveneens aan bod in de cursus PySpark voor Big Data.
MapReduce en SQL
Uitgebreid wordt ingegaan op de mogelijke operaties op RDD's waaronder map en reduce. Ook komt het gebruik van SQL in S…

Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.
Spark Architectuur
In de cursus PySpark voor Big Data komt aan de orde komt de architectuur van Spark, de Spark Cluster Manager en het verschil tussen Batch en Stream Processing.
Hadoop
Na een bespreking van het Hadoop Distributed File System wordt ingegaan op parallelle operaties and het werken met RDD's, Resilient Distributed Datasets. De configuratie van PySpark applicaties via SparkConf en SparkContext komt eveneens aan bod in de cursus PySpark voor Big Data.
MapReduce en SQL
Uitgebreid wordt ingegaan op de mogelijke operaties op RDD's waaronder map en reduce. Ook komt het gebruik van SQL in Spark aan de orde. De GraphX library wordt besproken en er wordt ingegaan op DataFrames. Verder komen iteratieve algorithmen aan de orde.
Mlib library
Tenslotte wordt in de cursus PySpark voor Big Data aandacht
besteed aan machine learning met de Mlib library.
Doelgroep Cursus PySpark voor Big Data
De cursus PySpark voor Big Data is bedoeld voor developers en aankomende Data Analisten die Apache Spark willen leren gebruiken vanuit Python.
Voorkennis training PySpark voor Big Data
Om aan deze cursus deel te nemen is kennis enige ervaring met programmeren bevorderlijk voor de begripsvorming. Voorafgaande kennis van Python of big data handling met Apache Spark is niet nodig.
Uitvoering cursus PySpark voor Big Data
De theorie wordt behandeld aan de hand van presentaties. Illustratieve demo’s worden gebruikt om de behandelde concepten te verduidelijken. Er is voldoende gelegenheid om te oefenen en afwisseling van theorie en praktijk. De cursustijden zijn van 9.30 tot 16.30.
Certificering cursus PySpark voor Big Data
De deelnemers krijgen na het goed doorlopen van de cursus een officieel certificaat PySpark voor Big Data.
Modules
Module 1 : Python Primer
- Python Syntax
- Python Data Types
- List, Tuples, Dictionaries
- Python Control Flow
- Functions and Parameters
- Modules and Packages
- Comprehensions
- Iterators and Generators
- Python Classes
- Anaconda Environment
- Jupyter Notebooks
Module 2 : Spark Intro
- What is Apache Spark?
- Spark and Python
- PySpark
- Py4j Library
- Data Driven Documents
- RDD's
- Real Time Processing
- Apache Hadoop MapReduce
- Cluster Manager
- Batch versus Stream Processing
- PySpark Shell
Module 3 : HDFS
- Hadoop Environment
- Environment Setup
- Hadoop Stack
- Hadoop Yarn
- Hadoop Distributed File System
- HDFS Architecture
- Parallel Operations
- Working with Partitions
- RDD Partitions
- HDFS Data Locality
- DAG (Direct Acyclic Graph)
Module 4 : SparkConf
- SparkConf Object
- Setting Configuration Properties
- Uploading Files
- SparkContext.addFile
- Logging Configuration
- Storage Levels
- Serialize RDD
- Replicate RDD partitions
- DISK_ONLY
- MEMORY_AND_DISK
- MEMORY_ONLY
Module 5 : SparkContext
- Main Entry Point
- Executor
- Worker Nodes
- LocalFS
- SparkContext Parameters
- Master
- RDD serializer
- batchSize
- Gateway
- JavaSparkContext instance
- Profiler
Module 6 : RDD’s
- Resilient Distributed Datasets
- Key-Value pair RDDs
- Parallel Processing
- Immutability and Fault Tolerance
- Transformation Operations
- Filter, groupBy and Map
- Action Operations
- Caching and persistence
- PySpark RDD Class
- count, collect, foreach,filter
- map, reduce, join, cache
Module 7 : Spark Processing
- SQL support in Spark
- Spark 2.0 Dataframes
- Defining tables
- Importing datasets
- Querying data frames using SQL
- Storage formats
- JSON / Parquet
- GraphX
- GraphX library overview
- GraphX APIs
Module 8 : Broadcast and Accumulator
- Performance Tuning
- Serialization
- Network Traffic
- Disk Persistence
- MarshalSerializer
- Data Type Support
- Python’s Pickle Serializer
- DStreams
- Sliding Window Operations
- Multi Batch and State Operations
Module 9 : Algorithms
- Iterative Algorithms
- Graph Analysis
- Machine Learning API
- mllib.classification
- Random Forest
- Naive Bayes
- Decision Tree
- mllib.clustering
- mllib.linalg
- mllib.regression
Waarom SpiralTrain
SpiralTrain is specialist op het gebied van software development trainingen. Wie bieden zowel trainingen aan voor beginnende programmeurs die zich de basis van talen en tools eigen willen maken als ook trainingen voor ervaren software professionals die zich willen bekwamen in de nieuwste versie van een taal of een framework.
Onze trainingkenmerken zich door :
• Klassikale of online open roostertrainingen en andere
trainingsvormen
• Eenduidige en scherpe cursusprijzen, zonder extra kosten
• Veel trainingen met een doorlopende case study
• Trainingen die gericht zijn op certificering
Er zijn nog geen veelgestelde vragen over dit product. Als je een vraag hebt, neem dan contact op met onze klantenservice.

