Apache Druid Eğitimi

Q: Apache Druid Eğitimi eğitiminin süresi nedir?

Apache Druid Eğitimi eğitimi toplam 30 Saat (5 Gün) sürmektedir.

Q: Apache Druid Eğitimi eğitiminin formatı nedir?

Bu eğitim sınıf içi ve online olarak sunulmaktadır. Başarı sertifikası: Var

Eğitim Hakkında

Apache Druid Eğitimi, milisaniye-ölçekli sorgu performansı ve gerçek-zamanlı veri akışlarını destekleyen kolonar, dağıtık OLAP veritabanı Apache Druid’in uçtan uca mimarisini, veri girişi (batch & streaming) senaryolarını, sorgu optimizasyon tekniklerini ve üretim operasyonlarını kapsamlı biçimde ele alır. Katılımcılar; Segment tabanlı depolama ve time-based sharding mantığını, Broker → Historical → MiddleManager/Indexer düğüm rollerini, SQL & Native JSON sorgu katmanını (vektörleştirilmiş motor, MSQ), Deep Storage ayrımı, otomatik compaction ve tier-aware scaling stratejilerini, Prometheus-tabanlı metrik izleme, rolling upgrade, CI/CD, güvenlik (TLS, Ranger) ve KVKK/GDPR uyum pratiklerini gerçek laboratuvar ortamında uygulayarak petabayt ölçeğinde gerçek-zamanlı analitik kümeleri kurumsal bulut veya on-prem altyapılarda devreye alabilecek yetkinliğe ulaşır. Apache Druid, yüksek‐kardinaliteli boyutlarda bile düşük gecikmeli OLAP sorguları sunmak üzere tasarlanmış, sütun-tabanlı, zaman-parçalı (segment) veri mimarisi kullanan açık kaynak bir gerçek-zamanlı analitik veritabanıdır. Planlama Katmanı: Görevleri alt-görevlere ayırır, aksiyon sırasını belirler. Yürütme Katmanı: LLM tabanlı mantık + araç entegrasyonları ile adımları gerçekleştirir. Hafıza Katmanı: Kısa (context window) ve uzun vadeli (vektör/graph DB) bilgiyi saklar. Gözlem & İyileştirme: Sonuçları değerlendirir, hatalarda retry/rollback uygular ve metrik tabanlı olarak kendini optimize eder.

Bilgi İstiyorum

Süre

30 Saat (5 Gün)

Başarı Sertifikası

Var

Ön Koşul

Kontrol Ediniz

Ön Koşul

Katılımcıların temel düzeyde SQL bilgisine, veri tabanı kavramlarına ve veri analitiği süreçlerine aşina olmaları önerilir. Linux ortamı, dağıtık veri sistemleri veya veri akış teknolojileri (Kafka vb.) hakkında temel farkındalık eğitimin daha verimli takip edilmesini sağlayacaktır; ancak ileri düzey uzmanlık zorunlu değildir.

Eğitim İçeriği

Apache Druid’e Giriş ve Temel Kavramlar

Hoş Geldiniz ve Eğitimin Hedefleri
- Program yapısı, modüller, zaman çizelgesi
- Katılımcı profilleri ve ön koşullar (SQL, Kafka, Linux)
- Başarı göstergeleri, değerlendirme kriterleri
Apache Druid Tanımı, Motivasyonu ve Tarihçesi
- OLAP ⇄ OLTP boşluğunu dolduran “real-time analytics” paradigması
- 2012 Metamarkets → Apache Foundation süreci → Cloud-native evrim
- Apache 2.0 lisansı – yazılım ücretsiz, maliyet altyapı kaynaklı
Druid Ekosistemi ve Temel Bileşenler
- Broker, Historical, MiddleManager/Indexer, Router, Coordinator
- Segment kavramı, time-based sharding, columnar depolama
- Query stack: Scan, Timeseries, Top-N, GroupBy (+ VECTOR eng.)

Mimari Tasarım ve Sistem Bileşenleri

Depolama & Hesaplama Ayrımı
- Deep Storage (S3, HDFS, GCS) ile segment offload
- Compute node türleri: Historical vs. Queryable Indexer vs. Real-Time
Parçalama ve Replikasyon
- Time-chunk + hash/multi-dim sharding seçenekleri
- ReplicationFactor, segment balancing, auto-compaction
Ölçeklenebilirlik ve Yük Paylaşımı
- Broker cache, result merging, multi-tier historicals
Yüksek Erişilebilirlik
- Zookeeper koordinasyonu, Coordinator failover, service discovery

Veri Modellemesi ve Sorgu Mimarisi

Veri Türleri ve Kolon Özellikleri
- Dimension vs. Metric, Sketch (HLL/Rollup), JSON/Complex Types
Roller – Roll-Up / No-Roll-Up Stratejileri
- Küçülen depolama, daha hızlı sorgu vs. detay kaybı
Sorgu Motoru
- SQL Planner → native JSON plan; vectorization, multi-stage query (MSQ)
- Push-down filtreler, bitmap index, column pruning
Zaman Serisi ve Pencere Fonksiyonları
- Interval, granularity, FLOOR (__time to HOUR), TIME_SHIFT

Veri Girişi (Ingestion) ve ETL Pipelines

Batch vs. Streaming Ingestion
- Hadoop/EMR, Local Index Task, Cloud Storage Batch
- Kafka, Kinesis, Pulsar real-time ingestion
Ingestion Spec Anatomy
- InputSource, InputFormat, Transform, Aggregator, GranularitySpec
- Mutable vs. Immutable segment akışı
Veri Kalitesi ve Şema Evrimi
- late-arrival toleransı, schema-less JSON flattening
- Dimension/metric ekleme – re-index & compaction senaryoları

Cluster Yönetimi ve Operasyon

Druid Console ve API’ler
- Datasource yönetimi, segment health, coordinator yürütme
Kaynak Ayarları
- JVM Xms/Xmx, direct memory, processing buffer, query cache boyutu
Güncelleme & Versiyonlama
- Rolling upgrade, blue-green deployment, ZK path izolasyonu
Yedekleme ve Kurtarma
- Deep Storage dayanıklılığı, metadata DB (PostgreSQL/MySQL) snapshot’ı

Performans Ayarları ve Optimizasyon

Segment boyutu ve sayısı
- 500 MB–1 GB hedefi, compaction policy
Query Caching
- Host cache, global memcached/Redis, segment prefetch
Vectorization ve MSQ Tuning
- CPU vs. spill-to-disk, worker-count, shuffle-compression
Benchmarking
- Apache Superset dashboard, JMeter + Druid benchmark extension

İzleme, Gözlemlenebilirlik ve Güvenlik

Metrik Toplama
- Emitters: Graphite, Prometheus, Datadog, OTLP
Loglama ve Tracing
- JSON structured log, requestId, query context, errorCode
Erişim Kontrolü
- Basic auth, TLS, Ranger-entegre role-based authorization
Veri Gizliliği ve KVKK Uyumu
- Column-level masking, row-level filter, PII hash-tokenization

Gerçek-Zamanlı Analitik Uygulamaları

A/B Test İzleme
- Kafka stream → Druid → Superset canlı funnel analizi
Operasyonel Dashboard
- Ops log ingestion, 5 sn gecikme ile SLA ihlal alarmı
IoT & Telemetri
- MQTT → Pulsar → Druid for device metrics roll-up
Fraud Detection
- Approximate distinct + sketch-based cardinality anomali avı

BI & Ekosistem Entegrasyonları

Visualization Araçları
- Apache Superset, Tableau (SQL over HTTP), Looker JDBC
AI & ML Akışı
- Druid SQL → Python pandas → scikit-learn inference
Veri Gölü ve Lakehouse Senaryoları
- Hive-metastore federation, Iceberg external table preview
Alerting & Stream Processing
- Druid → Kafka “alert topic” → Flink CEP pattern

Dağıtım Senaryoları ve Maliyetlendirme

On-Prem vs. Bulut (AWS EKS, GKE, AKS)
- SSD/NVMe ile historical, spot-instance MiddleManager
Kapasite Planlama
- Segment büyüme eğrisi → deep storage maliyeti
- QPS hedefi, p95 latency, broker ölçeği
SaaS / Managed Druid Alternatifleri
- Imply Polaris, StarTree Cloud – fiyatlandırma modeli
FinOps Optimizasyonu
- Auto-compaction pencere, S3 lifecycle tiering, memory-CPU right-sizing

Kazanımlar

Milisaniye gecikmeli OLAP sorguları ve anlık veri güncellemeleri ile iş birimlerinin hızlı karar alma becerisi kazanabileceksiniz.
Segment tabanlı sütun-depolama ve vektörleştirilmiş sorgu motoru sayesinde petabayt düzeyinde veriyi düşük gecikmeyle sorgulama uzmanlığı edinebileceksiniz.
Roll-up, otomatik compaction ve deep storage katmanları ile depolama maliyetlerini düşürme ve hesaplama giderlerini optimize etme tekniklerini öğrenebileceksiniz.
Kafka, Kinesis ve Pulsar entegrasyonu ile batch yüklerini tek şemada harmanlayarak ETL süreçlerini sadeleştirme becerisi kazanabileceksiniz.
Segment replikasyonu, Zookeeper hizmet keşfi ve TLS/Ranger RBAC yapılandırmaları ile yüksek erişilebilirlik ve veri güvenliği sağlayabileceksiniz.
Superset, Tableau, Looker, Flink, Spark ve lakehouse uyumluluğu sayesinde kurumun mevcut BI ekosistemine sorunsuz entegrasyon gerçekleştirebileceksiniz.

Hedef Kitle

Veri Mühendisleri & Analytics Engineers
BI Geliştiricileri & Veri Analistleri
Platform / DevOps / SRE Uzmanları
Finans, Perakende, Oyun, IoT, Telekom Dikey Uzmanları
Ürün & Proje Yöneticileri

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

Bilgi İstiyorum

Süre

30 Saat (5 Gün)

Başarı Sertifikası

Var

Ön Koşul

Kontrol Ediniz