Big Data & NoSQL mit Open Source Schulung

Schwerpunkt der Schulung ist die praktische Anwendung und die Realisierung von Big Data Projekten mit verfügbaren Open Source Werkzeugen. Die Teilnehmer bekommen Kriterien und Dauenwerte um beurteilen zu können, mit welchem Werkzeug ein Problem am besten zu lösen ist. Typische Open Source Produkte wie Cassandra, MongoDB und Redis werden vorgestellt. Praktische Übungen vermitteln einen tieferen Einblick und wertvolle Erfahrungen.

Wir aktualisieren ständig die verwendeten Datenbanken und Frameworks. Daher kann die im Kurs verwendete Software von der Seminar-Beschreibung abweichen. Fragen Sie uns bitte, wenn Sie Interesse an einer Datenbank oder einem Framework haben, auch wenn dieses hier nicht aufgeführt wurde.

BigData Einführung

Was ist Big Data?
Ab welcher Größe oder Komplexität werden Big Data Verfahrenen benötigt?
Abgrenzung zu Business Intelligence
Wann stößt eine relationale SQL-Datenbank an ihre Grenzen?

NoSQL Einführung

Unterschied zu relationalen SQL Datenbanken
Datenmodellierung
Das Dynamo Paper

Consistency, Availability und Partition Tolerance

Was sind Konsistenz, Verfügbarkeit und Partitionstoleranz?
CAP Theorem
Eventual Consistency
Gibt es bei den NoSQL Datenbanken Transaktionen?
Der Umgang mit der Redundanz

Key/Value Stores

Funktionsweise der K/V Stores
Produkte im Überblick
Praxisteil mit redis
Einsatzgebiete

Document Stores

Map Reduce Abfragen
Die MongoDB

Big Table Datenbanken

Produktübersicht
Data Modelling am Beispiel der Apache Cassandra DB

Graphendatenbanken

Produktübersicht
Abfrage und Manipulation mit GraphQL

Skalierbarkeit und Performanz

Möglichkeiten der Skalierung im Überblick
Große Datenmengen, viele Nutzer, viele Schreib- und Lesezugriffe
Optimierungen
Verteilte Datenbanken: Replikation, Fragmentation & Partitioning

Datensicherheit und Zuverlässigkeit

Hochverfügbarkeit und Fehlertoleranz
Redundante Speicherung
Verteilung auf mehrere Data Center
Umsetzung in den einzelnen Produkten

Abfragen und Visualisierung

Der Map Reduce Algorithmus

Analyse und Aggregation von Daten

Aggregation von Daten
Data Mining
A/B Tests
Machine Learning
Finden von Korrelationen

Big Data Open Source Frameworks

Apache Hadoop
YARN
Apache Spark

Messaging & Streaming (Optional)

Wie unterscheidet sich Streaming von Online- und Batch-Verarbeitung?
Streaming mit Apache Kafka

Zielgruppe

Entwickler, Software Architekten und Administratoren

Vorkenntnisse

Grundkenntnisse über Datenbanken

Dauer

2 Tage

Kursunterlage

Handouts aller in der Schulung präsentierten Folien sowie ein Übungensskript.