Veri Mühendisliği ve Tahminsel İstatistik Eğitimi
Veri Mühendisliği ve Tahminsel İstatistik Eğitimi
Eğitim Hakkında
Veri bilimi ham verinin toplanması, temizlenmesi, analizi ve içgörüye dönüştürülmesi sürecidir. A çıklayıcı İstatistik (Descriptive) ise merkezi eğilim, dağılım ve veri yapısını özetler. Eğitimimiz, veri biliminin temellerinden başlayarak açıklayıcı, tahminsel ve kuralcı (prescriptive) istatistik yaklaşımlarını uygulamalı örneklerle ele alır. Katılımcılar; veri setlerini tanıma, özetleme, modelleme ve iş kararlarına dönüştürme süreçlerini endüstri standartlarında öğrenir ve uygulama becerisi kazanır.
Ön Koşul
Bu eğitimin herhangi bir ön koşulu yoktur.
Eğitim İçeriği
- Amaç
- Veri bilimi yaşam döngüsünü ve analitik türlerini iş bağlamına oturtmak.i
- Yaşam Döngüsü ve Süreçler
- Problem tanımı → hipotez → veri gereksinimi → toplama/entegrasyon → temizleme/özellik → analiz/modelleme → doğrulama → görselleştirme → karar/aksiyon → izleme.
- CRISP-DM aşamaları ve iş birimleriyle etkileşim (stakeholder mapping, RACI)
- Veri Kalitesi ve Yönetişim
- Boyutlar: doğruluk, bütünlük, tutarlılık, tekillik, gecikme/güncellik.
- Veri sözlüğü, şema yönetimi, veri soyu (lineage), kalite kuralları (expectations).
- KVKK/GDPR, PII maskeleme/anonimleştirme; rol tabanlı erişim (RBAC)
- Analitik Türleri ve Kullanım Senaryoları
- Açıklayıcı: KPI takibi, anomali tespiti, kök neden analizi (RCA).
- Tahminsel: talep/churn/satış/arıza; özelliğe dayalı segmentasyon.
- Kuralcı: bütçe/kapasite/rota optimizasyonu; senaryo/duyarlılık analizi.
- Ölçüm ve Deney Tasarımı
- KPI/OKR hiyerarşisi; öncü–ardıl metrik ayrımı.
- A/B, çok kollu bandit, sıralı test; örnek hacmi ve güç analizi.
- Araç Ekosistemi (yüksek seviye)
- Python (pandas, numpy, scipy, statsmodels), SQL, BI (Power BI/Tableau), not defterleri.
- Uygulama
- Mini EDA: veri tipleri, eksik değer, aykırı, özet istatistik; hızlı tek sayfa bulgu
- Özet ve Hedef
- Açıklayıcı istatistik, dağılım analizi ve temel testler ile sağlam EDA.
- Merkezi Eğilim ve Dağılım
- Ortalama, medyan, mod; robust ölçüler (trimmean)
- Varyans, σ, IQR, MAD; çarpıklık/basıklık; hataya duyarlılık
- Dönüşümler ve Ölçekleme
- Log/Box-Cox/Yeo-Johnson; standardizasyon vs. min–max; robust scaling.
- Aykırı Değer Yönetimi
- Z-skor, IQR, robust z; Grubbs testi; iş kararlarına etkisi
- Örnekleme ve Örnek Hacmi
- Basit/tabakalı/küme; örnek hacmi sezgisi, tasarım etkisi (design effect)
- Temel Hipotez Testleri
- Tek/çift örnek t-test, oran testleri; parametrik vs. non-parametrik (Mann–Whitney, Wilcoxon)
- Güven aralığı yorumu; p-değeri tuzakları; etki büyüklüğü (Cohen’s d)
- Görselleştirme
- Histogram, KDE, kutu/violin; QQ-plot ile normalite kontrolü
- Uygulama
- Aykırı değerin regresyon eğimine etkisi; öncesi/sonrası karşılaştırma
- Özet ve Hedef
- İlişki analizi, doğrusal regresyon, ANOVA ve ki-kare ile çıkarım
- Korelasyon ve İlişkiler
- Pearson/Spearman/Kendall; saçılım grafikleri; ısı haritası; kısmi korelasyon
- Doğrusal Regresyon
- Basit/çoklu; etkileşim terimleri; kategorik değişkenler (one-hot/target encoding)
- Varsayımlar: doğrusallık, homoskedastisite (Breusch–Pagan/White), normallik, otokorelasyon (Durbin–Watson)
- Çoklu doğrusal bağlantı: VIF ve çözüm stratejileri (özellik seçimi/PCA)
- Model Değerlendirme
- R², düzeltilmiş R², MSE/RMSE/MAE; çapraz doğrulama (k-fold, nested CV)
- Zaman serisi ayrımı (TimeSeriesSplit) ve sızıntı (leakage) önleme
- ANOVA ve Post-Hoc
- Tek/iki yönlü ANOVA; Welch ANOVA; Tukey HSD; etki büyüklüğü (η², ω²)
- Temel Hipotez Testleri
- Tek/çift örnek t-test, oran testleri; parametrik vs. non-parametrik (Mann–Whitney, Wilcoxon)
- Güven aralığı yorumu; p-değeri tuzakları; etki büyüklüğü (Cohen’s d)
- Ki-Kare Testleri
- Histogram, KDE, kutu/violin; QQ-plot ile normalite kontrolü
- Raporlama
- Artık (residual) analizi grafikleri; belirsizlik görselleştirme
- Uygulama
- Çoklu regresyonda özellik seçimi (forward/backward/stepwise) + CV ile karşılaştırma
- Özet ve Hedef
- Lojistik regresyon, dengesiz veri, çok değişkenli yöntemler, Bayes temelleri ve zaman serisine giriş
- Lojistik Regresyon
- Olasılık/odds/log-odds; karar eşiği seçimi; L1/L2/ElasticNet; kalibrasyon (Platt/Isotonic)
- Sınıflandırma Metrikleri
- OC–AUC vs. PR–AUC; F1/precision/recall; cost-sensitive karar; kaldırma eğrileri (lift/gain)
- Dengesiz Veri
- Sınıf ağırlığı, SMOTE/ADASYN/undersample; ayrık eşik ve iş maliyeti
- Çok Değişkenli Analiz
- PCA: varyans açıklama, bileşen yorumu, biplot; faktör analizi: döndürme (varimax/promax)
- Kümeleme kısa dokunuş: K-means vs. hiyerarşik (yalnızca sezgi ve uyarılar)
- Bayesçi Temeller
- Öncel/ardıl; güven vs. inanç aralığı farkı; conjugate örnekler; küçük örneklem avantajı
- Zaman Serisine Giriş
- Durağanlık (ADF/KPSS), ACF/PACF, mevsimsellik/trend; fark alma ve temel ARIMA/ETS sezgisi
- Model Güvenilirliği
- Kalibrasyon eğrileri, Brier skoru; karar eğrisi analizi (DCA) sezgisi
- Uygulama
- Dengesiz churn verisinde eşik optimizasyonu: gelir maksimize eden eşik
- Özet ve Hedef
- Ölçeklenebilir veri işleme, dosya formatları, akış mimarileri ve Spark pratikleri
- Hadoop ve Dosya Formatları
- HDFS, YARN, MapReduce; Parquet/ORC/Avro; sıkıştırma ve kolonarlık avantajları
- Apache Spark
- Driver/executor, DAG, lazy evaluation; narrow vs. wide transformations
- Performans: partitioning, cache/persist, broadcast join, skew mitigation
- Spark SQL/DataFrame API; UDF/UDTF uyarıları; adaptif sorgu yürütme (AQE)
- MLlib Kısa Giriş
- Pipeline, özellik vektörizasyonu, standard scaler; grid/random search
- NoSQL Ekosistemi
- MongoDB (belge), Cassandra (geniş sütun), Redis (KV); şema tasarım desenleri, TTL/sekans
- Gerçek Zamanlı Akış
- Kafka: topic/partition/offset; consumer group; backpressure ve tam-semantikler
- Structured Streaming: watermarking, windowed aggregation, exactly-once stratejileri
- Mimari Örüntüler
- Lambda vs. Kappa; Lakehouse (Delta/Iceberg/Hudi) ve ACID tablolar
- Uygulama
- 10–50M satırlık clickstream üzerinde Spark EDA + join + window fonksiyonları
- Özet ve Hedef
- İlişkisel tasarım, sorgu performansı, dağıtık tutarlılık, ETL/ELT ve bulut DWH
- Şema Tasarımı
- 3NF vs. denormalizasyon; boyutsal model: fact/dim, SCD (Type 1/2); surrogate key stratejileri
- SQL Performansı
- İndeksler: B-tree, hash, BRIN; metin ve JSON için GIN/GiST (PostgreSQL)
- Sorgu planı/EXPLAIN; join sırası, filtre iteleme (predicate pushdown); window fonksiyonları
- Tutarlılık ve Ölçek
- CAP teoremi; ACID vs. BASE; çok-bölge replikasyon, okuma/yazma gecikmesi
- SQL vs. NoSQL Tercihi
- Erişim örüntüsü, gecikme/throughput, esneklik, şema evrimi, TCO değerlendirmesi
- DWH/Lake/Lakehouse
- Bronz–gümüş–altın katmanları; veri doğrulama (great expectations vb.); metadata/katalog
- ETL/ELT ve Orkestrasyon
- CDC (log-based), Airflow/Dagster; dbt ile modelleme ve testler; veri sürümleme
- Bulut DWH Platformları
- Redshift, BigQuery, Synapse: maliyet kontrolü (slot/credit/billing), güvenlik (KMS/CMK), yönetişim
- Uygulama
- OLTP → DWH modeline dönüşüm; günlük artımsal yükleme DAG taslağı
- Özet ve Hedef
- Bulgu → içgörü → eylem zincirini görsel anlatı ile güçlendirmek
- Doğru Grafik Seçimi
- İlişki/karşılaştırma/bileşim/dağılım/yoğunluk; küçük çokluklar; sparklines/bullet chart
- Tasarım İlkeleri
- Eksen/ölçek, boşluk kullanımı, tipografi; preattentive özellikler; açıklık ve etik görsel kullanım
- Erişilebilirlik: renk körlüğü güvenli paletler; etiket/kontrast kuralları
- Araç ve Üretime Geçiş
- Power BI/Tableau prototip → veri kaynağı yönetimi → yayınlama → veri yenileme
- Python: matplotlib/Plotly; tema/şablon tutarlılığı; yeniden üretilebilirlik
- Dashboard Tasarımı
- KPI hiyerarşisi, filtre/etkileşim, drill-down, uyarı/abonelik; kullanım izinleri
- Anti-Paternler
- Eksen manipülasyonu, cherry-picking, 3D/gradient yanılsamalar, cut-off tuzakları
- Uygulama
- “Tek sayfa yönetici özeti” çalışması: problem → metrik → bulgu → öneri
Kazanımlar
- Ölçülebilir KPI’lar oluşturarak karar verme süreçlerinde öznelliği minimize edebileceksiniz.
- Regresyon ve sınıflandırma modelleriyle talep, satış ve operasyon tahminlerinde doğruluk artışı sağlayabileceksiniz.
- Kaynak dağılımı, stok yönetimi ve süreç optimizasyonu için eylem önerileri sunabileceksiniz.
- Analiz sonuçlarını grafiklerle ve anlatımla birleştirerek paydaş ikna gücünü artırabileceksiniz.
- Python, R, SQL, Tableau, Power BI gibi yaygın teknolojilerde uygulamalı deneyim kazanabileceksiniz.
Hedef Kitle
- Veri Analistleri & Veri Bilimciler
- İş Zekâsı (BI) Uzmanları
- Yazılım Mühendisleri & Geliştiriciler
- Dikey Uzmanlar (Finans, Sağlık, Pazarlama vb.
- Ürün ve Proje Yöneticileri
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI
BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.