Schulung: Big Data & NoSQL mit Open Source Werkzeugen

Big Data eignet sich für Datenmengen die zu groß oder zu komplex für eine herkömmliche Verarbeitung sind. Schuld an der Datenflut sind mehrere Trends:

  • Das Tracking des Benutzerverhalten im Web
  • Daten von mobilen Geräten
  • Internet of Things
  • Digitale Kameras
  • RFID Chips

Aus der Analyse von Daten können neue Erkenntnisse und Trends gewonnen werden, die bei Verkauf, Service und Forschung wertvolle Hilfe leisten .

Schwerpunkt der Schulung ist die praktische Anwendung und die Realisierung von Big Data Projekten mit verfügbaren Open Source Werkzeugen. Die Teilnehmer bekommen Kriterien und Dauenwerte um beurteilen zu können, mit welchem Werkzeug ein Problem zu lösen ist. Typische Open Source Produkte wie Cassandra, MongoDB und Redis werden vorgestellt. Praktische Übungen vermitteln einen tieferen Einblick und wertvolle Erfahrungen.

Wir aktualisieren ständig die verwendeten Datenbanken und Frameworks. Daher kann die im Kurs verwendete Software von der Seminar-Beschreibung abweichen. Fragen Sie uns bitte, wenn Sie Interesse an einer Datenbank oder einem Framework haben, auch wenn dieses hier nicht aufgeführt wurde.

Grundlagen

  • Online, Batch-Verarbeitung und Streaming
  • Transaktionen
  • Stärken und Schwächen des relationalen Modells

BigData Einführung

  • Was ist Big Data?
  • Ab welcher Größe oder Komplexität werden Big Data Verfahrenen benötigt?
  • Abgrenzung zu Business Intelligence
  • Wann stößt eine relationale SQL-Datenbank an ihre Grenzen?
  • Wer sammelt alles Daten?

NoSQL Einführung

  • Unterschied zu relationalen SQL Datenbanken
  • Dokumentenorientierte Datenbanken am Beispiel der MongoDB
  • Graphendatenbanken mit Neo4J
  • Der Key/Value Stores Redis
  • Spaltenorientierte Datenbanken mit Apache Cassandra
  • Datenmodellierung

Consistency, Availability und Partition Tolerance

  • Was sind Konsistenz, Verfügbarkeit und Partitionstoleranz?
  • CAP Theorem
  • Eventual Consistency

Skalierbarkeit

  • Möglichkeiten der Skalierung im Überblick
  • Große Datenmengen, viele Nutzer, viele Schreib- und Lesezugriffe
  • Optimierungen
  • Verteilte Datenbanken: Replication, Fragmentation & Partitioning

Abfragen und Visualisierung

  • Der Map Reduce Algorithmus

Analyse und Aggregation von Daten

  • Aggregation von Daten
  • Data Mining
  • A/B Tests
  • Machine Learning
  • Finden von Korrelationen

Big Data Open Source Frameworks

  • Apache Hadoop
  • YARN
  • Apache Spark

Messaging & Streaming

  • Rapid Ingestion mit Apache Kafka

Zielgruppe

Administratoren, Entwickler und Software Architekten

Vorkenntnisse

Grundkenntnisse über Datenbanken

Dauer

2 Tage

Kursunterlage

Handouts aller in der Schulung präsentierten Folien sowie ein Übungensskript.

* Gesamtpreis pro Teilnehmer inkl. Kursmaterial und Tagesverpflegung zzgl. Mehrwertsteuer

Überblick

Übungsanteil: 50 %
Schwierigkeitsgrad: mittel

7. - 8.5.18Bonn

Teilnahme: 1.380,- €*