Pekiştirmeli Öğrenme Eğitimi
Pekiştirmeli Öğrenme Eğitimi
Eğitim Hakkında
Eğitimde öncelikle katılımcıların pekiştirmeli öğrenmenin çalışma şeklini ve amacını anlayabilmesi için pekiştirmeli öğrenmenin kavramları anlatılmaktadır. Pekiştirmeli öğrenme algoritmalarının geliştirilebilmesi için gerekli özellikler, araçlar ve stratejiler katılımcılarla paylaşılmaktadır. Farklı ortamlar için kullanılabilecek çok sayıda algoritma aktarılmaktadır. Farklı sektörlerdeki pratik kullanım örnekleri sunulmaktadır.
Ön Koşul
Üniversite seviyesinde temel matematik bilgisi & Temel programlama ve algoritma yazma ya da anlama becerilerinin olması & Python bilgisi şart olmamakla beraber örnek kodların anlaşılması için faydalı olacaktır.
Eğitim İçeriği
- Pekiştirmeli öğrenme nedir?
- Gelişimi
- Tanımı
- Temel kavramlar: Policy
- Temel kavramlar: Model
- Temel kavramlar: State-değer fonksiyonu
- Öğrenme hedefleri
- Markov özelliği ve Markov zinciri
- Markov ödül süreci (Markov reward process)
- Markov karar süreci (Markov decision process-MDP)
- MDP Policy
- Policy araştırması
- Araştırma ve faydalanma kavramları
- E-greedy
- İyimser ilk değerler ve UCB
- Policy değerlendirmesi (Policy evaluation)
- Policy iterasyonu (Policy iteration)
- Değer iterasyonu(Value iteration)
- Asenkron dinamik programlama
- Monte Carlo değerlendirme
- Monte Carlo kontrol
- Zamansal fark TD(0) değerlendirme
- TD(λ) değerlendirme
- TD kontrol : SARSA
- TD kontrol : Q-öğrenmesi (Q-learning)
- TD kontrol : Beklenen SARSA
- TD kontrol : SARSA (λ)
- Derin Q-ağları
- Q-planlama
- DYNA-Q algoritması
- DYNA-Q+ algoritması
- Değer fonksiyonu yaklaşıklama - tanım
- Amaç fonksiyonu (MSE)
- MC ve TD(0) değerlendirme
- Doğrusal değer fonksiyonu yaklaşıklama
- Değer fonksiyonu yaklaşıklama : kontrol
- Kontrol algoritmaları
- Ortalama ödül
- Policy gradyan tanımı
- REINFORCE algoritması
- Aktör-Kritik yöntemi
- Minimax araştırması
- Monte Carlo ağaç araştırması
- Taklit ederek öğrenme ve tersine pekiştirmeli öğrenme
- Uygulamalar
- Hisse senedi ticaret botu
- Portföy yönetimi
- FINRL
- DDPG (Deep Deterministic Policy Gradient) algoritması
- RLHF tanımı ve çalışma şekli
- RLHF ile dil modelinin ince ayar yapılması
- RLHF faydaları ve kısıtlamaları
- Proximal Policy Optimization algoritması
Kazanımlar
- Pekiştirmeli öğrenmenin temel kavramlarını, Markov karar süreçlerini ve öğrenme hedeflerini anlayarak problem tanımlarını doğru şekilde modelleyebileceksiniz,
- Dinamik programlama, örnekleme tabanlı yöntemler ve TD tabanlı algoritmaları kullanarak politika ve değer fonksiyonu öğrenme yaklaşımlarını ayırt edebileceksiniz,
- Q-learning, SARSA, derin Q-ağları ve policy gradyan yöntemlerinin çalışma mantığını kavrayarak farklı senaryolara uygun algoritma seçimi yapabileceksiniz,
- RLHF, finansal uygulamalar ve gerçek dünya örnekleri üzerinden pekiştirmeli öğrenmenin ileri seviye kullanım alanlarını değerlendirebileceksiniz.
Hedef Kitle
- Araştırmacılar ve lisansüstü öğrenciler.
- ML / AI mühendisi adayları
- Veri bilimciler
- Yazılım geliştiriciler
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınavın başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI
BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.