
Eğitim Hakkında
Bu ileri seviye mühendislik ve araştırma programı, veri mahremiyetinin ve regülasyonların aşılamaz bir engel teşkil ettiği durumlarda dahi, dağıtık verilerden kolektif bir zekâ yaratma sanatı olan Federated Learning (FL) paradigmasını en temelinden en gelişmiş uygulamalarına kadar ele alır. Katılımcılar, ham veriyi asla merkezi bir sunucuya taşımadan, verinin bulunduğu yerde (hastaneler, telefonlar, fabrikalar) makine öğrenmesi modellerini nasıl eğiteceklerini öğreneceklerdir. Program, temel FL algoritmalarından (FedAvg) başlayarak, gerçek dünyanın en büyük zorluğu olan istatistiksel heterojenlikle (Non-IID data) başa çıkan gelişmiş yöntemlere (FedProx) ve Diferansiyel Gizlilik (DP), Homomorfik Şifreleme (HE) gibi kriptografik tekniklerle birleştirilerek nasıl kurşun geçirmez (bulletproof) gizlilik garantileri sunulduğuna kadar tüm mimariyi derinlemesine inceler.
Federated Learning (FL), tek bir global modelin, verinin dağıtık olduğu birden çok istemci (client) üzerinde, verinin kendisi yer değiştirmeden iş birliği içinde eğitildiği bir makine öğrenmesi yaklaşımıdır. Eğitimde;
- Temel Paradigma: Merkezi bir sunucunun global bir modeli istemcilere gönderdiği, istemcilerin kendi yerel verileriyle modeli eğittiği ve sadece model güncellemelerini (ağırlıklar/gradyanlar) merkeze geri yolladığı FedAvg algoritmasının tüm döngüsü.
- FL Mimarileri: Kurumlar arası Cross-Silo (örn: hastaneler arası) ve milyonlarca mobil cihazı kapsayan Cross-Device (örn: klavye tahmini) topolojileri. Merkezi, Merkeziyetsiz (P2P) ve Hiyerarşik FL yaklaşımları.
- Temel Zorluklar: İstemcilerdeki verilerin birbirinden çok farklı olması (Non-IID / İstatistiksel Heterojenlik), işlem gücü ve ağ bağlantısı farklılıkları (Sistem Heterojenliği), ve iletişim darboğazları.
- Gizlilik Artırıcı Teknolojiler (PETs): FL'nin tek başına yeterli olmadığı durumlar için, paylaşılan model güncellemelerine matematiksel gürültü ekleyerek bireysel katkıları gizleyen Diferansiyel Gizlilik (Differential Privacy- DP) ve güncellemelerin şifreliyken bile toplanabilmesini sağlayan Homomorfik Şifreleme (Homomorphic Encryption - HE) ve Güvenli Çok Taraflı Hesaplama (SMPC).
- Modern Kütüphaneler: Flower (Python tabanlı, framework-agnostik popüler bir FL kütüphanesi) ve TensorFlow Federated (TFF) üzerinde yoğun uygulamalı çalışmalar yapılacaktır.
Kimler İçindir?
- Hassas verilerle (sağlık, finans, telekomünikasyon) çalışan ve veri silolarını kırmak isteyen Kıdemli Yapay Zekâ/Makine Öğrenmesi Mühendisleri ve Araştırmacıları.
- Kurumun veri gizliliği stratejilerini belirleyen ve teknik çözümler arayan Veri Mahremiyeti Mühendisleri ve Güvenlik Mimarları.
- Dağıtık sistemler, MLOps ve büyük ölçekli altyapılar üzerine çalışan Altyapı ve MLOps Mühendisleri.
- Regülasyonlara tabi sektörlerde (sağlıkta HIPAA, finansta GDPR) teknolojik inovasyon yapmak isteyen Teknoloji Liderleri (CTO) ve Ar-Ge Direktörleri.
- Edge AI ve mobil cihazlar üzerinde zekâ geliştiren Gömülü Sistemler ve Mobil Geliştirme Uzmanları.
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
Eğitim İçeriği
1.1. Geleneksel Merkezi Makine Öğrenmesinin Krizi
- Veri Mahremiyeti Riskleri: Veri sızıntıları, ikincil kullanım ve kimlik ifşası.
- Regülasyon Engelleri: GDPR, HIPAA, KVKK gibi yasaların veri merkezileştirmesine getirdiği sınırlar.
- Veri Siloları Problemi ve Rekabet Avantajı Kaybı.
- Veri Anonimizasyonu ve limitleri (yeniden kimliklendirme saldırıları).
- Diferansiyel Gizlilik (DP), Homomorfik Şifreleme (HE), Güvenli Çok Taraflı Hesaplama (SMPC) ve Sıfır Bilgi İspatları (ZKP) gibi temel PET'lere giriş.
- Federated Learning'in bu spektrumdaki yeri ve diğer PET'lerle ilişkisi.
2.1. Federated Learning Topolojileri
- Cross-Silo FL: Kurumlar arası (hastaneler, bankalar) iş birliği. Az sayıda, güvenilir ve her zaman online olan istemciler.
- Cross-Device FL: Milyonlarca mobil cihazı kapsayan senaryolar. Çok sayıda, güvenilir olmayan ve sıkça offline olan istemciler.
- Merkezi Sunucu (Sunucu-İstemci) vs. Merkeziyetsiz (Peer-to-Peer) FL mimarilerinin karşılaştırılması.
- Adım 1: İstemci Seçimi (Client Selection) Stratejileri.
- Adım 2: Global Modelin İstemcilere Dağıtılması.
- Adım 3: İstemcide Yerel Eğitim (Local Training) - Epoch sayısı ve batch size'ın önemi.
- Adım 4: Model Güncellemelerinin Merkeze Gönderilmesi (Ağırlıklar vs. Gradyanlar).
- Adım 5: Sunucuda Agregasyon (Aggregation) - Güncellemelerin ağırlıklı ortalama ile birleştirilmesi ve yeni global modelin oluşturulması.
3.1. İstatistiksel Heterojenlik (Non-IID Data)
- Non-IID (Non-Independent and Identically Distributed) Veri Nedir? Covariate Shift, Label Shift gibi türleri ve FL üzerindeki olumsuz etkileri ("client drift" problemi).
- FedProx Algoritması: Yerel modellerin global modelden çok uzaklaşmasını engelleyen "proximal term" kavramı ve uygulaması.
- Diğer Non-IID stratejileri: Veri paylaşımı/artırma ve kişiselleştirme yaklaşımları.
- Farklı işlem gücü, bellek ve ağ hızlarına sahip istemcilerle başa çıkma.
- Asenkron Federated Learning yaklaşımları ve "straggler" (yavaş kalan) istemci problemi.
4.1. Federated Learning ve Diferansiyel Gizlilik (DP-FL)
- Diferansiyel Gizliliğin Sezgisel Anlamı: "Makul İnkâr Edilebilirlik" (Plausible Deniability).
- Merkezi DP vs. Yerel DP: Gürültünün nereye eklendiği ve getirdiği gizlilik/performans ödünleşimi.
- DP-FedAvg Algoritması: İstemcilerin gönderdiği güncellemelere gürültü ekleyerek bireysel katkıları gizleme ve gizlilik bütçesi (privacy budget - epsilon) kavramı.
- Sunucunun bile bireysel güncellemeleri göremediği, sadece toplamı (aggregate) görebildiği sistemler.
- Homomorfik Şifreleme (HE) ve Güvenli Çok Taraflı Hesaplama (SMPC) gibi kriptografik protokollerin FL agregasyon sürecine entegrasyonu.
5.1. Flower Kütüphanesi ile Hızlı Prototipleme
- Sunucu (Server) ve İstemci (Client) mantığının kodlanması.
- Herhangi bir makine öğrenmesi kütüphanesi (PyTorch, TensorFlow, Scikit-learn) ile FL sistemleri kurma.
- Strateji API'si ile FedAvg, FedProx gibi algoritmaların ve özel agregasyon metotlarının uygulanması.
- TFF'nin Federated Core (FC) ve Federated Learning (FL) API'lerinin incelenmesi.
- TFF ile bir FL hesaplamasının tanımı ve simülasyonu.
Aşama 1: Problemin ve Simülasyon Ortamının Kurulması
- Farklı hasta demografilerine ve teşhis oranlarına sahip 10 adet sanal hastane veri seti oluşturma (Non-IID simülasyonu).
- Hedef: Her hastanenin kendi yerel verisi üzerinde, ortak bir global teşhis modeli (örn: diyabet tahmini) eğitmek.
- Flower kütüphanesi kullanılarak merkezi sunucu ve hastane istemcilerinin oluşturulması.
- Non-IID verinin standart FedAvg üzerindeki olumsuz etkilerinin (düşük performans, ıraksama) gözlemlenmesi
- FedProx algoritmasını entegre ederek modelin Non-IID veri üzerindeki performansının iyileştirilmesi.
- Sisteme Diferansiyel Gizlilik (DP) ekleyerek, gizlilik bütçesi (epsilon) ile model performansı arasındaki ödünleşimin (trade-off) analiz edilmesi.
- Proje sunumu: Elde edilen sonuçlar, karşılaşılan zorluklar ve gerçek dünya uygulamaları için çıkarılan dersler.
7.1. Güvenlik Saldırıları ve Savunma Mekanizmaları
- Veri Zehirleme (Data Poisoning) ve Model Zehirleme (Model Poisoning) saldırıları.
- Çıkarım (Inference) ve Üyelik (Membership) Saldırıları: Paylaşılan güncellemelerden yerel veri hakkında bilgi sızdırma girişimleri.
- Byzantine-Dayanıklı Agregasyon Yöntemleri: Kötü niyetli istemcilere karşı sistemi sağlamlaştırma.
- Tek bir global model yerine, her istemci için kendi verisine daha uygun, kişiselleştirilmiş bir model yaratma (örn: Meta-Learning ve Model Fine-tuning yaklaşımları).
- Dağıtık bir sistemde model versiyonlama, izleme ve hata ayıklamanın zorlukları.
- Rekip kurumların (örn: bankalar) iş birliği yapacağı bir FL projesinin yasal, etik ve operasyonel çerçevesinin oluşturulması (veri standartları, ödül dağıtımı vb.).
Neden Bu Eğitimi Almalısınız ?
- Erişilemez Veriye Erişim: Normalde asla bir araya getirilemeyecek (yasal, ticari veya lojistik sebeplerle) veri siloları üzerinde, veri mahremiyetini ihlal etmeden, kolektif modeller eğitmeyi mümkün kılar.
- Tasarım Odaklı Gizlilik (Privacy-by-Design): GDPR ve benzeri regülasyonların "veri minimizasyonu" ve "amaç sınırlaması" gibi temel prensiplerini doğal olarak karşılayan sistemler tasarlamayı öğretir.
- Daha Güçlü ve Genellenebilir Modeller: Tek bir kurumun sınırlı ve yanlı verisi yerine, farklı kaynaklardan gelen çok çeşitli ve heterojen veriler üzerinde eğitilen modellerin, gerçek dünyada daha sağlam ve genellenebilir olmasını sağlar.
- İletişim Verimliliği: Petabaytlarca ham veriyi taşımak yerine, sadece kilobayt/megabayt boyutundaki küçük model güncellemelerini ileterek iletişim maliyetlerini ve ağ yükünü dramatik ölçüde azaltır.
- Stratejik Rekabet Avantajı: Müşterilere ve iş ortaklarına en üst düzeyde veri gizliliği garantisi sunarak marka güveni inşa eder ve iş birliğine dayalı yeni iş modellerinin önünü açar.
Önemli Notlar
Program ücretlerine KDV dahil değildir.