
Eğitim Hakkında
Bu derinlemesine teknik program, makine öğrenmesi projelerinin bel kemiğini oluşturan iki temel sürece odaklanır: Geliştirilen bir modelin başarısını istatistiksel olarak sağlam ve iş hedeflerine uygun bir şekilde değerlendirme ve modelin potansiyelini en üst düzeye çıkarmak için sistematik olarak optimize etme. Katılımcılar, "doğruluk" (accuracy) metriğinin ötesine geçerek, dengesiz veri setleri, farklı hata maliyetleri ve spesifik iş ihtiyaçları için doğru performans metriklerini seçmeyi öğreneceklerdir. Program, Grid Search gibi kaba kuvvet yöntemlerinden, Bayesian Optimizasyon gibi akıllı ve verimli hiperparametre arama stratejilerine ve Optuna gibi modern kütüphanelerin kullanımına kadar tüm optimizasyon sürecini uygulamalı olarak ele alır.
Bu eğitim, bir makine öğrenmesi modelinin yaşam döngüsündeki "kalite güvence" ve "performans artırma" adımlarının bütünüdür. Eğitim, teoriyi ve pratiği birleştirerek şu konulara odaklanır:
- Değerlendirme Metrikleri:
- Sınıflandırma: Doğruluk (Accuracy), Hassasiyet (Precision), Duyarlılık (Recall), F1-Skoru, ROC Eğrisi & AUC Alanı, Precision-Recall Eğrisi ve LogLoss gibi metriklerin ne zaman ve neden kullanılacağı.
- Regresyon: MSE, RMSE, MAE ve R-Kare (R-Squared) gibi metriklerin yorumlanması ve limitasyonları.
- Doğrulama Stratejileri (Validation Strategies): Modelin genelleme yeteneğini doğru ölçmek için Çapraz Doğrulama (Cross-Validation) (K-Fold, Stratified K-Fold, Time-Series Split) ve Bootstrapping gibi istatistiksel olarak sağlam yöntemler.
- Hiperparametre Optimizasyonu (HPO): Bir modelin performansını belirleyen ayar düğmeleri olan hiperparametrelerin en iyi kombinasyonunu bulma bilimi ve sanatı. Grid Search, Random Search gibi temel yaklaşımlardan, Bayesian Optimizasyon ve Genetik Algoritmalar gibi gelişmiş ve verimli tekniklere kadar geniş bir yelpaze.
- Modern Optimizasyon Kütüphaneleri: Optuna, Hyperopt ve Ray Tune gibi endüstri standardı haline gelmiş, gelişmiş arama algoritmaları ve paralelizasyon yetenekleri sunan kütüphaneler üzerinde yoğun uygulamalı çalışmalar.
Kimler İçindir?
- Modellerinin performansını istatistiksel olarak kanıtlamak ve sistematik olarak iyileştirmek isteyen Veri Bilimciler.
- Üretim ortamına alınacak modellerin en optimal versiyonlarını hazırlamaktan sorumlu Makine Öğrenmesi Mühendisleri.
- Geliştirdikleri yeni mimarilerin veya algoritmaların performansını mevcut en iyi yöntemlerle (state-of-the-art) titiz bir şekilde karşılaştırması gereken Yapay Zekâ Araştırmacıları.
- Tahminsel modelleme alanına geçiş yapan ve modellerinin güvenilirliğini sağlamak isteyen Veri Analistleri.
- Üretimdeki modellerin performansını izleyen ve modelin ne zaman yeniden eğitilmesi veya optimize edilmesi gerektiğini belirleyen MLOps Mühendisleri
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
Eğitim İçeriği
1.1. Model Değerlendirmenin Felsefesi
- "Bütün modeller yanlıştır, ama bazıları kullanışlıdır" - George Box.
- Genelleme (Generalization) ve Aşırı Öğrenme (Overfitting) / Eksik Öğrenme (Underfitting) Dengesi.
- Eğitim (Train), Doğrulama (Validation) ve Test (Test) Veri Setlerinin Rolü ve Doğru Ayrımı.
- Dengesiz (Imbalanced) Veri Setleri: Neden %99 doğruluk oranının anlamsız olabileceği.
- Karmaşıklık Matrisi (Confusion Matrix): True Positive, False Positive, True Negative, False Negative kavramlarının derinlemesine analizi.
2.1. Eşik (Threshold) Bağımlı Metrikler
- Hassasiyet (Precision) ve Duyarlılık (Recall) Arasındaki Ödünleşim (Trade-off).
- Vaka İncelemesi: Kanser teşhisinde (Recall öncelikli) ve e-posta spam tespitinde (Precision öncelikli) doğru metrik seçimi.
- F1-Skoru, F-beta Skoru ve Ağırlıklı Ortalamalar (Weighted Averages).
- ROC Eğrisi ve AUC (Area Under the Curve) Alanı: Bir modelin farklı eşiklerdeki genel sıralama ve ayırt etme gücünün ölçümü.
- Precision-Recall (PR) Eğrisi: Özellikle pozitif sınıfın az olduğu durumlarda ROC'a göre daha bilgilendirici olması.
- Logaritmik Kayıp (LogLoss) ve Brier Skoru: Modelin sadece doğru sınıfı değil, aynı zamanda o sınıfa ne kadar "emin" bir olasılık atadığını ölçme.
3.1. Regresyon Metriklerinin Derinlemesine İncelenmesi
- Hata Kareler Ortalaması (MSE) vs. Ortalama Mutlak Hata (MAE): Aykırı (outlier) değerlere karşı hassasiyetleri.
- R-Kare (R-Squared) ve Düzeltilmiş R-Kare: Modelin varyansı ne kadar açıkladığı ve çok fazla özellik eklemenin getirdiği riskler.
- NDCG (Normalized Discounted Cumulative Gain) ve MAP (Mean Average Precision).
- Silhouette Skoru ve Calinski-Harabasz İndeksi.
4.1. Çapraz Doğrulama (Cross-Validation) Stratejileri
- K-Fold, Stratified K-Fold (sınıf dengesini koruma) ve Leave-One-Out.
- Zaman Serileri için Özel CV: İleriye Yönelik Zincirleme (Forward Chaining) ve Zaman Serisi Ayrımı.
- Bir modelin diğerinden "şans eseri" değil, gerçekten daha iyi olup olmadığını anlama.
- Eşleştirilmiş t-testi (Paired t-test) ve Bootstrap Yöntemi ile performans metrikleri için güven aralıkları (confidence intervals) oluşturma.
- Grid Search: Kapsamlı ama hesaplama açısından pahalı yaklaşım.
- Random Search: Genellikle Grid Search'ten daha verimli olan ve daha geniş bir arama uzayını keşfeden yaklaşım.
- Atölye: Scikit-learn GridSearchCV ve RandomizedSearchCV ile pratik uygulama.
6.1. Bayesian Optimizasyon
- Sezgisel Anlatım: "Geçmiş denemelerin sonuçlarını kullanarak, bir sonraki en umut verici hiperparametre setini akıllıca seçme."
- Vekil Model (Surrogate Model) ve Edinme Fonksiyonu (Acquisition Function) kavramları.
- Keşfetme (Exploration) ve Sömürme (Exploitation) arasındaki denge.
- Optuna'nın temel mantığı: study, trial ve objective fonksiyonu.
- Arama uzayını (search space) tanımlama: Kategorik, tamsayı, float ve logaritmik dağılımlar.
- Pruning (Budama): Kötü giden denemeleri erken durdurarak optimizasyon sürecini hızlandırma.
- Optimizasyon sürecini canlı olarak izleme ve görselleştirme.
Aşama 1: İş Problemi ve Metrik Seçimi
- Senaryo: Bir telekom şirketi müşteri kaybını önlemek istiyor. Müşteriyi tutma maliyeti ve kaybedilen müşterinin değeri biliniyor.
- Sadece accuracy yerine, iş hedefini (maksimum kar/minimum kayıp) yansıtan özel bir skor fonksiyonu veya F-beta skoru gibi bir metrik seçme.
- Bir LightGBM veya XGBoost modelinin en önemli hiperparametreleri (learning_rate, n_estimators, max_depth vb.) için bir arama uzayı tanımlama.
- Optimizasyon sürecini çalıştırma ve en iyi denemeyi (best trial) bulma.
- Optimize edilmiş modelin, temel modele göre hem seçilen metrik hem de iş değeri açısından ne kadar daha iyi olduğunun raporlanması.
- Optimizasyon sürecinin görselleştirmeleri (parametre önemleri, contour plot vb.) ile sonuçların paydaşlara sunulması.
- Tahmin performansından ödün vermeden, modelin çıkarım (inference) hızını ve bellek kullanımını iyileştirme.
- Model Nicemleme (Quantization), Budama (Pruning) ve Bilgi Damıtma (Knowledge Distillation) tekniklerine genel bakış.
- Üretimdeki bir modelin performansını izleme ve performans düştüğünde (drift) otomatik yeniden optimizasyon (re-tuning) pipeline'ları kurma.
Neden Bu Eğitimi Almalısınız ?
- Maliyetli Hatalardan Kaçınma: Yanlış metrik seçimi nedeniyle (örn: dengesiz bir veri setinde sadece accuracy'e bakmak), üretimde başarısız olacak bir modelin onaylanmasını ve bunun yaratacağı iş kayıplarını engeller.
- Maksimum Değer Elde Etme: Verinizden ve modelinizden alınabilecek en yüksek performansı sistematik optimizasyon teknikleriyle elde etmenizi sağlar, böylece marjinal iyileştirmeler bile büyük iş değerlerine dönüşebilir.
- Bilimsel ve Savunulabilir Sonuçlar: Farklı modeller veya yaklaşımlar arasında seçim yaparken "deneme-yanılma" veya "içgüdü" yerine, istatistiksel olarak anlamlı ve savunulabilir kanıtlar sunma becerisi kazandırır.
- Verimli Kaynak Kullanımı: Bayesian Optimizasyon gibi akıllı arama stratejileri, en iyi hiperparametreleri çok daha az denemeyle ve dolayısıyla çok daha az zaman ve hesaplama maliyetiyle bulmanızı sağlar.
- Güvenilirlik ve Profesyonel Kredibilite: Geliştirdiğiniz her modelin performansını doğru metriklerle, sağlam doğrulama yöntemleriyle ve şeffaf bir optimizasyon süreciyle sunarak, teknik kredibilitenizi ve paydaşların projenize olan güvenini artırır.
Önemli Notlar
Program ücretlerine KDV dahil değildir.