Veri Mühendisliği ve Tahminsel İstatistik Eğitimi
Veri Mühendisliği ve Tahminsel İstatistik Eğitimi
Eğitim Hakkında
Veri bilimi ham verinin toplanması, temizlenmesi, analizi ve içgörüye dönüştürülmesi sürecidir. A çıklayıcı İstatistik (Descriptive) ise merkezi eğilim, dağılım ve veri yapısını özetler. Eğitimimiz, veri biliminin temellerinden başlayarak açıklayıcı, tahminsel ve kuralcı (prescriptive) istatistik yaklaşımlarını uygulamalı örneklerle ele alır. Katılımcılar; veri setlerini tanıma, özetleme, modelleme ve iş kararlarına dönüştürme süreçlerini endüstri standartlarında öğrenir ve uygulama becerisi kazanır.
Ön Koşul
Bu Eğitimin Herhangi Bir Ön Koşulu Yoktur.
Eğitim İçeriği
- Amaç
- Veri bilimi yaşam döngüsünü ve analitik türlerini iş bağlamına oturtmak.i
- Yaşam Döngüsü ve Süreçler
- Problem tanımı → hipotez → veri gereksinimi → toplama/entegrasyon → temizleme/özellik → analiz/modelleme → doğrulama → görselleştirme → karar/aksiyon → izleme.
- CRISP-DM aşamaları ve iş birimleriyle etkileşim (stakeholder mapping, RACI)
- Veri Kalitesi ve Yönetişim
- Boyutlar: doğruluk, bütünlük, tutarlılık, tekillik, gecikme/güncellik.
- Veri sözlüğü, şema yönetimi, veri soyu (lineage), kalite kuralları (expectations).
- KVKK/GDPR, PII maskeleme/anonimleştirme; rol tabanlı erişim (RBAC)
- Analitik Türleri ve Kullanım Senaryoları
- Açıklayıcı: KPI takibi, anomali tespiti, kök neden analizi (RCA).
- Tahminsel: talep/churn/satış/arıza; özelliğe dayalı segmentasyon.
- Kuralcı: bütçe/kapasite/rota optimizasyonu; senaryo/duyarlılık analizi.
- Ölçüm ve Deney Tasarımı
- KPI/OKR hiyerarşisi; öncü–ardıl metrik ayrımı.
- A/B, çok kollu bandit, sıralı test; örnek hacmi ve güç analizi.
- Araç Ekosistemi (yüksek seviye)
- Python (pandas, numpy, scipy, statsmodels), SQL, BI (Power BI/Tableau), not defterleri.
- Uygulama
- Mini EDA: veri tipleri, eksik değer, aykırı, özet istatistik; hızlı tek sayfa bulgu
- Özet ve Hedef
- Açıklayıcı istatistik, dağılım analizi ve temel testler ile sağlam EDA.
- Merkezi Eğilim ve Dağılım
- Ortalama, medyan, mod; robust ölçüler (trimmean)
- Varyans, σ, IQR, MAD; çarpıklık/basıklık; hataya duyarlılık
- Dönüşümler ve Ölçekleme
- Log/Box-Cox/Yeo-Johnson; standardizasyon vs. min–max; robust scaling.
- Aykırı Değer Yönetimi
- Z-skor, IQR, robust z; Grubbs testi; iş kararlarına etkisi
- Örnekleme ve Örnek Hacmi
- Basit/tabakalı/küme; örnek hacmi sezgisi, tasarım etkisi (design effect)
- Temel Hipotez Testleri
- Tek/çift örnek t-test, oran testleri; parametrik vs. non-parametrik (Mann–Whitney, Wilcoxon)
- Güven aralığı yorumu; p-değeri tuzakları; etki büyüklüğü (Cohen’s d)
- Görselleştirme
- Histogram, KDE, kutu/violin; QQ-plot ile normalite kontrolü
- Uygulama
- Aykırı değerin regresyon eğimine etkisi; öncesi/sonrası karşılaştırma
- Özet ve Hedef
- İlişki analizi, doğrusal regresyon, ANOVA ve ki-kare ile çıkarım
- Korelasyon ve İlişkiler
- Pearson/Spearman/Kendall; saçılım grafikleri; ısı haritası; kısmi korelasyon
- Doğrusal Regresyon
- Basit/çoklu; etkileşim terimleri; kategorik değişkenler (one-hot/target encoding)
- Varsayımlar: doğrusallık, homoskedastisite (Breusch–Pagan/White), normallik, otokorelasyon (Durbin–Watson)
- Çoklu doğrusal bağlantı: VIF ve çözüm stratejileri (özellik seçimi/PCA)
- Model Değerlendirme
- R², düzeltilmiş R², MSE/RMSE/MAE; çapraz doğrulama (k-fold, nested CV)
- Zaman serisi ayrımı (TimeSeriesSplit) ve sızıntı (leakage) önleme
- ANOVA ve Post-Hoc
- Tek/iki yönlü ANOVA; Welch ANOVA; Tukey HSD; etki büyüklüğü (η², ω²)
- Temel Hipotez Testleri
- Tek/çift örnek t-test, oran testleri; parametrik vs. non-parametrik (Mann–Whitney, Wilcoxon)
- Güven aralığı yorumu; p-değeri tuzakları; etki büyüklüğü (Cohen’s d)
- Ki-Kare Testleri
- Histogram, KDE, kutu/violin; QQ-plot ile normalite kontrolü
- Raporlama
- Artık (residual) analizi grafikleri; belirsizlik görselleştirme
- Uygulama
- Çoklu regresyonda özellik seçimi (forward/backward/stepwise) + CV ile karşılaştırma
- Özet ve Hedef
- Lojistik regresyon, dengesiz veri, çok değişkenli yöntemler, Bayes temelleri ve zaman serisine giriş
- Lojistik Regresyon
- Olasılık/odds/log-odds; karar eşiği seçimi; L1/L2/ElasticNet; kalibrasyon (Platt/Isotonic)
- Sınıflandırma Metrikleri
- OC–AUC vs. PR–AUC; F1/precision/recall; cost-sensitive karar; kaldırma eğrileri (lift/gain)
- Dengesiz Veri
- Sınıf ağırlığı, SMOTE/ADASYN/undersample; ayrık eşik ve iş maliyeti
- Çok Değişkenli Analiz
- PCA: varyans açıklama, bileşen yorumu, biplot; faktör analizi: döndürme (varimax/promax)
- Kümeleme kısa dokunuş: K-means vs. hiyerarşik (yalnızca sezgi ve uyarılar)
- Bayesçi Temeller
- Öncel/ardıl; güven vs. inanç aralığı farkı; conjugate örnekler; küçük örneklem avantajı
- Zaman Serisine Giriş
- Durağanlık (ADF/KPSS), ACF/PACF, mevsimsellik/trend; fark alma ve temel ARIMA/ETS sezgisi
- Model Güvenilirliği
- Kalibrasyon eğrileri, Brier skoru; karar eğrisi analizi (DCA) sezgisi
- Uygulama
- Dengesiz churn verisinde eşik optimizasyonu: gelir maksimize eden eşik
- Özet ve Hedef
- Ölçeklenebilir veri işleme, dosya formatları, akış mimarileri ve Spark pratikleri
- Hadoop ve Dosya Formatları
- HDFS, YARN, MapReduce; Parquet/ORC/Avro; sıkıştırma ve kolonarlık avantajları
- Apache Spark
- Driver/executor, DAG, lazy evaluation; narrow vs. wide transformations
- Performans: partitioning, cache/persist, broadcast join, skew mitigation
- Spark SQL/DataFrame API; UDF/UDTF uyarıları; adaptif sorgu yürütme (AQE)
- MLlib Kısa Giriş
- Pipeline, özellik vektörizasyonu, standard scaler; grid/random search
- NoSQL Ekosistemi
- MongoDB (belge), Cassandra (geniş sütun), Redis (KV); şema tasarım desenleri, TTL/sekans
- Gerçek Zamanlı Akış
- Kafka: topic/partition/offset; consumer group; backpressure ve tam-semantikler
- Structured Streaming: watermarking, windowed aggregation, exactly-once stratejileri
- Mimari Örüntüler
- Lambda vs. Kappa; Lakehouse (Delta/Iceberg/Hudi) ve ACID tablolar
- Uygulama
- 10–50M satırlık clickstream üzerinde Spark EDA + join + window fonksiyonları
- Özet ve Hedef
- İlişkisel tasarım, sorgu performansı, dağıtık tutarlılık, ETL/ELT ve bulut DWH
- Şema Tasarımı
- 3NF vs. denormalizasyon; boyutsal model: fact/dim, SCD (Type 1/2); surrogate key stratejileri
- SQL Performansı
- İndeksler: B-tree, hash, BRIN; metin ve JSON için GIN/GiST (PostgreSQL)
- Sorgu planı/EXPLAIN; join sırası, filtre iteleme (predicate pushdown); window fonksiyonları
- Tutarlılık ve Ölçek
- CAP teoremi; ACID vs. BASE; çok-bölge replikasyon, okuma/yazma gecikmesi
- SQL vs. NoSQL Tercihi
- Erişim örüntüsü, gecikme/throughput, esneklik, şema evrimi, TCO değerlendirmesi
- DWH/Lake/Lakehouse
- Bronz–gümüş–altın katmanları; veri doğrulama (great expectations vb.); metadata/katalog
- ETL/ELT ve Orkestrasyon
- CDC (log-based), Airflow/Dagster; dbt ile modelleme ve testler; veri sürümleme
- Bulut DWH Platformları
- Redshift, BigQuery, Synapse: maliyet kontrolü (slot/credit/billing), güvenlik (KMS/CMK), yönetişim
- Uygulama
- OLTP → DWH modeline dönüşüm; günlük artımsal yükleme DAG taslağı
- Özet ve Hedef
- Bulgu → içgörü → eylem zincirini görsel anlatı ile güçlendirmek
- Doğru Grafik Seçimi
- İlişki/karşılaştırma/bileşim/dağılım/yoğunluk; küçük çokluklar; sparklines/bullet chart
- Tasarım İlkeleri
- Eksen/ölçek, boşluk kullanımı, tipografi; preattentive özellikler; açıklık ve etik görsel kullanım
- Erişilebilirlik: renk körlüğü güvenli paletler; etiket/kontrast kuralları
- Araç ve Üretime Geçiş
- Power BI/Tableau prototip → veri kaynağı yönetimi → yayınlama → veri yenileme
- Python: matplotlib/Plotly; tema/şablon tutarlılığı; yeniden üretilebilirlik
- Dashboard Tasarımı
- KPI hiyerarşisi, filtre/etkileşim, drill-down, uyarı/abonelik; kullanım izinleri
- Anti-Paternler
- Eksen manipülasyonu, cherry-picking, 3D/gradient yanılsamalar, cut-off tuzakları
- Uygulama
- “Tek sayfa yönetici özeti” çalışması: problem → metrik → bulgu → öneri
Kazanımlar
Ölçülebilir KPI’lar oluşturarak karar verme süreçlerinde öznelliği minimize etmeyi,
Regresyon ve sınıflandırma modelleriyle talep/satış/operasyon tahminlerinde doğruluk artışı sağlamayı,
Kaynak dağılımı, stok yönetimi ve süreç optimizasyonu için eylem önerileri sunmayı,
Analiz sonuçlarını grafiklerle ve anlatımla birleştirerek paydaş ikna gücünü artırmayı,
Python, R, SQL, Tableau, Power BI gibi yaygın teknolojilerde uygulamalı deneyimi hedefler.
Hedef Kitle
Veri Analistleri & Veri Bilimciler
İş Zekâsı (BI) Uzmanları
Yazılım Mühendisleri & Geliştiriciler
Dikey Uzmanlar (Finans, Sağlık, Pazarlama vb.
Ürün ve Proje Yöneticileri
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI
BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.