Pekiştirmeli Öğrenme Eğitimi
Pekiştirmeli Öğrenme Eğitimi
Eğitim Hakkında
Eğitimde öncelikle katılımcıların pekiştirmeli öğrenmenin çalışma şeklini ve amacını anlayabilmesi için pekiştirmeli öğrenmenin kavramları anlatılmaktadır. Pekiştirmeli öğrenme algoritmalarının geliştirilebilmesi için gerekli özellikler, araçlar ve stratejiler katılımcılarla paylaşılmaktadır. Farklı ortamlar için kullanılabilecek çok sayıda algoritma aktarılmaktadır. Farklı sektörlerdeki pratik kullanım örnekleri sunulmaktadır.
Ön Koşul
Üniveriste seviyesinde temel matematik bilgisi & Temel programlama ve algoritma yazma ya da anlama becerilerinin olması & Python bilgisi şart olmamakla beraber örnek kodların anlaşılması için faydalı olacaktır
Eğitim İçeriği
- Pekiştirmeli öğrenme nedir?
- Gelişimi
- Tanımı
- Temel kavramlar
- Temel kavramlar: Policy
- Temel kavramlar: Model
- Temel kavramlar: State-değer fonksiyonu
- Markov Özelliği
- Öğrenme hedefleri
- Markov özelliği ve Markov zinciri
- Markov ödül süreci (Markov reward process)
- Markov karar süreci (Markov decision process-MDP)
- MDP Policy
- Policy araştırması
- Araştırma ve faydalanma
- Araştırma ve faydalanma kavramları
- E-greedy
- İyimser ilk değerler ve UCB
- Dinamik programlama
- Policy değerlendirmesi (Policy evaluation)
- Policy iterasyonu (Policy iteration)
- Değer iterasyonu(Value iteration)
- Asenkron dinamik programlama
- Örnekleme dayalı öğrenme (sample based learning)
- Monte Carlo değerlendirme
- Monte Carlo kontrol
- Zamansal fark TD(0) değerlendirme
- TD(λ) değerlendirme
- TD kontrol : SARSA
- TD kontrol : Q-öğrenmesi (Q-learning)
- TD kontrol : Beklenen SARSA
- TD kontrol : SARSA (λ)
- Derin Q-ağları
- Geliştirme platformları
- Entegre planlama ve öğrenme (DYNA)
- Q-planlama
- DYNA-Q algoritması
- DYNA-Q+ algoritması
- Değer fonksiyonu yaklaşıklama (value function approximation-VFA)
- Değer fonksiyonu yaklaşıklama - tanım
- Amaç fonksiyonu (MSE)
- MC ve TD(0) değerlendirme
- Doğrusal değer fonksiyonu yaklaşıklama
- Değer fonksiyonu yaklaşıklama : kontrol
- Kontrol algoritmaları
- Ortalama ödül
- Policy gradyanı
- Policy gradyan tanımı
- REINFORCE algoritması
- Aktör-Kritik yöntemi
- Diğer pekiştirmeli öğrenme algoritmaları
- Minimax araştırması
- Monte Carlo ağaç araştırması
- Taklit ederek öğrenme ve tersine pekiştirmeli öğrenme
- Finans sektöründe pekiştirmeli öğrenme uygulamaları
- Hisse senedi ticaret botu
- Portföy yönetimi
- FINRL
- DDPG (Deep Deterministic Policy Gradient) algoritması
- İnsan geri bildirimi ile pekiştirmeli öğrenme (RLHF)
- RLHF tanımı ve çalışma şekli
- RLHF ile dil modelinin ince ayar yapılması
- RLHF faydaları ve kısıtlamaları
- Proximal Policy Optimization algoritması
- Örnek pekiştirme öğrenme uygulamaları
Kazanımlar
Pekiştirmeli öğrenmenin tanımının, temel kavramlarının ve hangi amaçla kullanıldığının öğrenilmesi
Farklı ortam ve problemler için uygun pekiştirmeli öğrenme algoritmasının seçilebilmesi ve uygulanabilmesi
Kompleks ve büyük ortamlar için, yapay sinir ağlarını içeren pekiştirmeli öğrenme çözümlerinin uygulanabilmesi
Hedef Kitle
Pekiştirmeli öğrenmenin çalışma şeklini bütün teknik detayları ile öğrenmek isteyen, bu konudaki algoritmaları anlamak ve geliştirmek için gerekli alt yapıyı kazanmak isteyen teknik alt yapıya sahip kişiler için uygun bir eğitimdir.
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınavın başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI
BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.