Opleiding: Data Science 360°
Data Science 360°
Ben je een liefhebber van data en analyse, heb je al een aantal jaren werkervaring en zou je graag de overstap willen maken naar een functie als data analist of scientist, dan is deze opleiding bedoeld voor jou!
Data Science 360° is de meest uitgebreide opleiding van Novalinq. Het sluit aan op de groeiende vraag om vanuit de data een organisatie te optimaliseren. Vanuit een 360 graden overview leer in twaalf dagen de combinatie van data science, artificial intelligence en data management.
Om dit mogelijk te maken leer je klassikaal én krijg je persoonlijke online begeleiding. Daarom is deze opleiding uitermate geschikt voor mensen die zich willen omscholen of specialiseren als advanced data analist.
Advanced data analist
Tijdens het programma Data Science 360° maak je gebruik van PowerBI en Python. Met deze tools ben je in staat om reproduceerbare analyses uit te voeren en betrouwbare resultaten te overleggen.
Deze opleiding leidt je op tot een advanced data analist.
Als advanced data analist ben je in staat is om data te verzamelen, te preparen, te analyseren en de resultaten op een heldere manier te presenteren. Je bent breed inzetbaar, of juist een gespecialiseerd data professional met ervaring met uiteenlopende data-gerelateerde vraagstukken.
Aan het eind van dit programma kan je:
- Data processen signaleren, ontwerpen en toepassen
- Data analyseren en presenteren
- Nieuwe databronnen toepassen en beoordelen
- Advies geven aan de business over data
- Data beleid mede vormgeven en implementeren in de organisatie
Voor wie is de Data Science 360 geschikt?
Deze opleiding is bedoeld voor professionals die affiniteit hebben met data en in hun huidige rol meer analyse willen gaan uitvoeren of juist een nieuwe rol als data analist of data scientist willen gaan vervullen.
De drie hoofdlijnen van data science 360°:
1. Data & en data infrastructuur
Data science speelt een grote rol bij het data supported of data driven werken. Dankzij technieken als statistiek, data mining en machine learning kunnen waardevolle inzichten verkregen worden uit de vele verschillende databronnen die in organisaties ter beschikking staan. Om data science te leren is het van groot belang om te snappen hoe datastromen lopen vanuit het proces tot en met de uitkomst.
Je maakt kennis met de technische achtergrond van systemen binnen de moderne data architectuur, waaronder SQL en NoSQL data structuren. Tevens zal er aandacht zijn aan de functionele kant van deze systemen, zoals beheersbaarheid, data kwaliteit en de voor- en nadelen de systemen.
2. Data governance & het data analyse proces
Het data analyse proces is een complex en grillig proces, waar veel vanaf hangt binnen organisaties. Grip krijgen op de data analyse processen is een cruciale stap om de governance compatibel te laten werken. Dit resulteert in schaalbare technieken, reproduceerbaarheid en betrouwbaarheid van de resultaten.
Om gericht te kunnen sturen op het data analyse proces wordt uitgebreid aandacht besteedt aan het Novalinq Analyticsbox® framework, dat in combinatie met Gartner’s vier analyse niveaus een robuuste methode biedt om analyse processen onder controle te krijgen en te houden.
Voor het implementeren van datagedreven werken in de organisatie zal gebruik gemaakt worden van het Novalinq Data Governance framework.
3. Data science technieken
De beste manier om data science te begrijpen is opdoen van zoveel mogelijk praktijkervaring met Python. Er zullen drie dagen besteed worden aan data science en Advanced Analytics routines zoals data cleaning, data mining en het winnen van informatie uit ongestructureerde data.
DAG 1. Introductie data, modelgedreven infrastructuur
- Vier velden van data analyse
- Feiten en dimensies
- Data kwaliteit
- Model gedreven data structuur (SQL)
- Database normalisatie
- Data gedreven data structuur (NoSQL/Key-Value)
- OLTP & OLAP - theorie & interactie
- Databases & applicaties
- Multidimensionale modellen (stermodel)
- Data analyse
- Basis ETL en data warehousing
- Data lakes en data reservoirs
DAG 2. Big Data, datagedreven infrastructuur
- Het Big Data probleem
- Definitie Big Data
- Distributed systems
- Hortonworks demo
- Big Data engines
- Big Data datawarehousing
- Realtime data processing
- Hive demo
- NoSQL databases
- Data lakes
- Data reservoirs
- AnalyticsBox®
DAG 3. Python basics, data-validatie, web scraping
- Installatie IDE’s
- Uitleg IDE’s
- Operatoren en assignment
- Datatypen en -structuren
- Markdown
- Introductie data processing libraries
- Data-import
- Datavalidatie
- Pre-processing
- Uitleg xml, html en css
- Web-scraping
- Advanced data processing
- Regular expressions
DAG 4. Introductie machine learning, algoritmen, werken met algortimen
- Intro machine learning
- Supervised learning
- Unsupervised learning
- Reinforcement learning
- Classificatie en regressie
- Introductie algoritmen
- Werking van verschillende algoritmen
- Modellen beoordelen
- Voorbereiden van data
- Trainen van algoritmen
- Testen en interpreteren van modellen
DAG 5. Feature engineering, toepassen van algoritmen, text mining
- Verbeteren van algoritmen input
- Random forest
- Apriori algoritme
- Lineaire regressie
- Intro textmining
- Text tokenization
- Bouwen van wordclouds
- Woordrelaties
- Network plots
DAG 6. Datacompressie, data visualisatie CLI
- Intro data compressie
- Uitleg data transformatie;
- Data aggregaties
- Data transformatie
- Data transformatie met Pandas/Dplyr.
- Visualisatie met Python
- Bouwen van grafieken met behulp van Python libraries
- Bouwen van advanced visualisations.
DAG 7. Data visualisatie CLI, intro machine learning
- Visualisatie met Python
- Bouwen van grafieken met behulp van Python libraries
- Bouwen van advanced visualisations
- Introductie machine learning
- Supervised-, unsupervised, en reinforcement learning
- Classificatie en regressie.
- Introductie algoritmen
- Werking van verschillende algoritmen
- Modellen beoordelen
DAG 8. Workshop #1
Bring your own data > neem je eigen data mee
Workshop formaat waarin de geleerde technieken onder begeleiding toegepast kunnen worden op eigen datasets.
DAG 9. Data Mining
- Voorbereiden van data
- Trainen van algoritmen
- Testen en interpreteren van modellen
- Feature engineering
- Verbeteren van algoritmen input
DAG 10. Data Mining
- Toepassen van algoritmen
- Random forrest
- Het apriori algoritme
- Lineaire regressie
DAG 11. Text mining, data projectmanagement
- Intro text mining
- Text mining met Python
- Text tokenization
- Bouwen van wordclouds
- Woordrelaties
- Network plots
- Data science projectmanagement
- Opzetten en sturen van data projecten
- Project fasen
- Roadmaps ontwikkelen
DAG 12. Workshop #2
Bring your own data > neem je eigen data mee
Workshop formaat waarin de geleerde technieken onder begeleiding toegepast kunnen worden op eigen datasets.
Werkwijze
De opleiding Data Science 360° duurt twaalf dagen. Tijdens de eerste twee lesdagen focussen we voornamelijk op de theorie en basisbegrippen, waarna je aan de slag gaat met praktijkopdrachten en de diverse tools leert kennen.
De theoretische modules zijn interactief. We verwachten dat je actief meedoet en aan discussies deelneemt. Afwisselend zijn er opdrachten die je op je laptop uitvoert. Tijdens de cursus werken we actief met verschillende programma's.
De praktijkmodules gaan over het toepassen van de geleerde kennis en vaardigheden. Tijdens deze modules verwachten we dat je jouw werk presenteert. Er zijn zowel individuele opdrachten als groepsopdrachten.
Je hebt voor deze training een eigen laptop nodig. Je hoeft vooraf geen software te installeren. Alle programma’s die je tijdens de opleiding gebruikt, zijn open source en gratis te gebruiken. De programma’s installeren we tijdens de opleiding. Zorg ervoor dat je een laptop meeneemt waarvan je de installatierechten hebt. De laptop dient Windows 7 of hoger, of OS X Yosemite of hoger te ondersteunen.
