Apache Druid Eğitimi
Apache Druid Eğitimi
Eğitim Hakkında
Apache Druid Eğitimi, milisaniye-ölçekli sorgu performansı ve gerçek-zamanlı veri akışlarını destekleyen kolonar, dağıtık OLAP veritabanı Apache Druid’in uçtan uca mimarisini, veri girişi (batch & streaming) senaryolarını, sorgu optimizasyon tekniklerini ve üretim operasyonlarını kapsamlı biçimde ele alır. Katılımcılar; Segment tabanlı depolama ve time-based sharding mantığını, Broker → Historical → MiddleManager/Indexer düğüm rollerini, SQL & Native JSON sorgu katmanını (vektörleştirilmiş motor, MSQ), Deep Storage ayrımı, otomatik compaction ve tier-aware scaling stratejilerini, Prometheus-tabanlı metrik izleme, rolling upgrade, CI/CD, güvenlik (TLS, Ranger) ve KVKK/GDPR uyum pratiklerini gerçek laboratuvar ortamında uygulayarak petabayt ölçeğinde gerçek-zamanlı analitik kümeleri kurumsal bulut veya on-prem altyapılarda devreye alabilecek yetkinliğe ulaşır. Apache Druid, yüksek‐kardinaliteli boyutlarda bile düşük gecikmeli OLAP sorguları sunmak üzere tasarlanmış, sütun-tabanlı, zaman-parçalı (segment) veri mimarisi kullanan açık kaynak bir gerçek-zamanlı analitik veritabanıdır. Planlama Katmanı: Görevleri alt-görevlere ayırır, aksiyon sırasını belirler. Yürütme Katmanı: LLM tabanlı mantık + araç entegrasyonları ile adımları gerçekleştirir. Hafıza Katmanı: Kısa (context window) ve uzun vadeli (vektör/graph DB) bilgiyi saklar. Gözlem & İyileştirme: Sonuçları değerlendirir, hatalarda retry/rollback uygular ve metrik tabanlı olarak kendini optimize eder.
Ön Koşul
Katılımcıların temel düzeyde SQL bilgisine, veri tabanı kavramlarına ve veri analitiği süreçlerine aşina olmaları önerilir. Linux ortamı, dağıtık veri sistemleri veya veri akış teknolojileri (Kafka vb.) hakkında temel farkındalık eğitimin daha verimli takip edilmesini sağlayacaktır; ancak ileri düzey uzmanlık zorunlu değildir.
Eğitim İçeriği
- Hoş Geldiniz ve Eğitimin Hedefleri
- Program yapısı, modüller, zaman çizelgesi
- Katılımcı profilleri ve ön koşullar (SQL, Kafka, Linux)
- Başarı göstergeleri, değerlendirme kriterleri
- Apache Druid Tanımı, Motivasyonu ve Tarihçesi
- OLAP ⇄ OLTP boşluğunu dolduran “real-time analytics” paradigması
- 2012 Metamarkets → Apache Foundation süreci → Cloud-native evrim
- Apache 2.0 lisansı – yazılım ücretsiz, maliyet altyapı kaynaklı
- Druid Ekosistemi ve Temel Bileşenler
- Broker, Historical, MiddleManager/Indexer, Router, Coordinator
- Segment kavramı, time-based sharding, columnar depolama
- Query stack: Scan, Timeseries, Top-N, GroupBy (+ VECTOR eng.)
- Depolama & Hesaplama Ayrımı
- Deep Storage (S3, HDFS, GCS) ile segment offload
- Compute node türleri: Historical vs. Queryable Indexer vs. Real-Time
- Parçalama ve Replikasyon
- Time-chunk + hash/multi-dim sharding seçenekleri
- ReplicationFactor, segment balancing, auto-compaction
- Ölçeklenebilirlik ve Yük Paylaşımı
- Broker cache, result merging, multi-tier historicals
- Yüksek Erişilebilirlik
- Zookeeper koordinasyonu, Coordinator failover, service discovery
- Veri Türleri ve Kolon Özellikleri
- Dimension vs. Metric, Sketch (HLL/Rollup), JSON/Complex Types
- Roller – Roll-Up / No-Roll-Up Stratejileri
- Küçülen depolama, daha hızlı sorgu vs. detay kaybı
- Sorgu Motoru
- SQL Planner → native JSON plan; vectorization, multi-stage query (MSQ)
- Push-down filtreler, bitmap index, column pruning
- Zaman Serisi ve Pencere Fonksiyonları
- Interval, granularity, FLOOR (__time to HOUR), TIME_SHIFT
- Batch vs. Streaming Ingestion
- Hadoop/EMR, Local Index Task, Cloud Storage Batch
- Kafka, Kinesis, Pulsar real-time ingestion
- Ingestion Spec Anatomy
- InputSource, InputFormat, Transform, Aggregator, GranularitySpec
- Mutable vs. Immutable segment akışı
- Veri Kalitesi ve Şema Evrimi
- late-arrival toleransı, schema-less JSON flattening
- Dimension/metric ekleme – re-index & compaction senaryoları
- Druid Console ve API’ler
- Datasource yönetimi, segment health, coordinator yürütme
- Kaynak Ayarları
- JVM Xms/Xmx, direct memory, processing buffer, query cache boyutu
- Güncelleme & Versiyonlama
- Rolling upgrade, blue-green deployment, ZK path izolasyonu
- Yedekleme ve Kurtarma
- Deep Storage dayanıklılığı, metadata DB (PostgreSQL/MySQL) snapshot’ı
- Segment boyutu ve sayısı
- 500 MB–1 GB hedefi, compaction policy
- Query Caching
- Host cache, global memcached/Redis, segment prefetch
- Vectorization ve MSQ Tuning
- CPU vs. spill-to-disk, worker-count, shuffle-compression
- Benchmarking
- Apache Superset dashboard, JMeter + Druid benchmark extension
- Metrik Toplama
- Emitters: Graphite, Prometheus, Datadog, OTLP
- Loglama ve Tracing
- JSON structured log, requestId, query context, errorCode
- Erişim Kontrolü
- Basic auth, TLS, Ranger-entegre role-based authorization
- Veri Gizliliği ve KVKK Uyumu
- Column-level masking, row-level filter, PII hash-tokenization
- A/B Test İzleme
- Kafka stream → Druid → Superset canlı funnel analizi
- Operasyonel Dashboard
- Ops log ingestion, 5 sn gecikme ile SLA ihlal alarmı
- IoT & Telemetri
- MQTT → Pulsar → Druid for device metrics roll-up
- Fraud Detection
- Approximate distinct + sketch-based cardinality anomali avı
- Visualization Araçları
- Apache Superset, Tableau (SQL over HTTP), Looker JDBC
- AI & ML Akışı
- Druid SQL → Python pandas → scikit-learn inference
- Veri Gölü ve Lakehouse Senaryoları
- Hive-metastore federation, Iceberg external table preview
- Alerting & Stream Processing
- Druid → Kafka “alert topic” → Flink CEP pattern
- On-Prem vs. Bulut (AWS EKS, GKE, AKS)
- SSD/NVMe ile historical, spot-instance MiddleManager
- Kapasite Planlama
- Segment büyüme eğrisi → deep storage maliyeti
- QPS hedefi, p95 latency, broker ölçeği
- SaaS / Managed Druid Alternatifleri
- Imply Polaris, StarTree Cloud – fiyatlandırma modeli
- FinOps Optimizasyonu
- Auto-compaction pencere, S3 lifecycle tiering, memory-CPU right-sizing
Kazanımlar
Gerçek-Zamanlı Analitik Rekabeti : Milisaniye gecikmeli OLAP sorguları ve anlık veri güncellemeleriyle, iş birimlerinin “şimdi ve burada” karar almasını sağlar; rakiplere kıyasla analitik tepki süresini dramatik biçimde kısaltır.
Performans & Ölçek Garantisi : Segment tabanlı sütun-depolama, vektörleştirilmiş sorgu motoru ve tier-aware yatay ölçekleme sayesinde petabayt düzeyinde veriyi p95 < 1 sn gecikme ile sorgulama uzmanlığı kazandırır.
Maliyet Optimizasyonu : Roll-up, otomatik compaction ve düşük maliyetli “deep storage” katmanlarıyla depolama giderlerini %60+ düşürme; spot-instance orta katmanı ve sorgu önbelleğiyle hesaplama maliyetlerini kontrol altına alma tekniklerini öğretir.
Birleşik Veri Akışı Basitleştirmesi : Kafka, Kinesis, Pulsar gibi akış kaynakları ile batch yüklerini (S3, HDFS, GCS) tek şemada harmanlayarak ETL karmaşıklığını azaltır; veri mühendisliği boru hatlarını sadeleştirir.
Güvenilirlik & Uyumluluk : Segment replikasyonu, Zookeeper tabanlı hizmet keşfi ve TLS/Ranger RBAC yapılandırmalarıyla yüksek erişilebilirlik ve KVKK/GDPR uyumlu erişim kontrolü stratejilerini pratikte uygulatır.
Modern Veri Yığını Entegrasyonu : Superset, Tableau, Looker, Flink, Spark ve open-source lakehouse katmanlarıyla uyumluluğu pekiştirerek, kurumun mevcut BI ekosistemine sorunsuz entegrasyon yol haritası sunar.
Hedef Kitle
Veri Mühendisleri & Analytics Engineers– Kafka/Pulsar akışlarını Druid’e ingest etme, roll-up stratejileri, segment tasarımı
BI Geliştiricileri & Veri Analistleri– Sub-second dashboard’lar (Superset/Tableau) için SQL optimizasyonu, HLL sketch ölçümleri
Platform / DevOps / SRE Uzmanları – Kubernetes-tabanlı Druid cluster kurulumu, autoscale (HPA-KEDA), Prometheus & Grafana izlemesi
Finans, Perakende, Oyun, IoT, Telekom Dikey Uzmanları – SLA’sı < 2 sn olan büyük hacimli OLAP raporları, sahtekârlık tespiti, telemetri akışı analizi
Ürün & Proje Yöneticileri – Gerçek-zamanlı analitik mimarilerini ürün yol haritasına yerleştirme, TCO & ROI beklentisi çıkarma
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI
BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.