Pekiştirmeli Öğrenme Eğitimi

Eğitim Hakkında

Eğitimde öncelikle katılımcıların pekiştirmeli öğrenmenin çalışma şeklini ve amacını anlayabilmesi için pekiştirmeli öğrenmenin kavramları anlatılmaktadır. Pekiştirmeli öğrenme algoritmalarının geliştirilebilmesi için gerekli özellikler, araçlar ve stratejiler katılımcılarla paylaşılmaktadır. Farklı ortamlar için kullanılabilecek çok sayıda algoritma aktarılmaktadır. Farklı sektörlerdeki pratik kullanım örnekleri sunulmaktadır.

Ön Koşul

Üniveriste seviyesinde temel matematik bilgisi & Temel programlama ve algoritma yazma ya da anlama becerilerinin olması & Python bilgisi şart olmamakla beraber örnek kodların anlaşılması için faydalı olacaktır

Eğitim İçeriği

Pekiştirmeli Öğrenme Temelleri

Pekiştirmeli öğrenme nedir?
Gelişimi
Tanımı
Temel kavramlar
Temel kavramlar: Policy
Temel kavramlar: Model
Temel kavramlar: State-değer fonksiyonu
Markov Özelliği
Öğrenme hedefleri
Markov özelliği ve Markov zinciri
Markov ödül süreci (Markov reward process)
Markov karar süreci (Markov decision process-MDP)
MDP Policy
Policy araştırması
Araştırma ve faydalanma
Araştırma ve faydalanma kavramları
E-greedy
İyimser ilk değerler ve UCB
Dinamik programlama
Policy değerlendirmesi (Policy evaluation)
Policy iterasyonu (Policy iteration)
Değer iterasyonu(Value iteration)
Asenkron dinamik programlama
Örnekleme dayalı öğrenme (sample based learning)
Monte Carlo değerlendirme
Monte Carlo kontrol
Zamansal fark TD(0) değerlendirme
TD(λ) değerlendirme
TD kontrol : SARSA
TD kontrol : Q-öğrenmesi (Q-learning)
TD kontrol : Beklenen SARSA
TD kontrol : SARSA (λ)
Derin Q-ağları
Geliştirme platformları
Entegre planlama ve öğrenme (DYNA)
Q-planlama
DYNA-Q algoritması
DYNA-Q+ algoritması
Değer fonksiyonu yaklaşıklama (value function approximation-VFA)
Değer fonksiyonu yaklaşıklama - tanım
Amaç fonksiyonu (MSE)
MC ve TD(0) değerlendirme
Doğrusal değer fonksiyonu yaklaşıklama
Değer fonksiyonu yaklaşıklama : kontrol
Kontrol algoritmaları
Ortalama ödül
Policy gradyanı
Policy gradyan tanımı
REINFORCE algoritması
Aktör-Kritik yöntemi
Diğer pekiştirmeli öğrenme algoritmaları
Minimax araştırması
Monte Carlo ağaç araştırması
Taklit ederek öğrenme ve tersine pekiştirmeli öğrenme

Uygulamalar

Finans sektöründe pekiştirmeli öğrenme uygulamaları
Hisse senedi ticaret botu
Portföy yönetimi
FINRL
DDPG (Deep Deterministic Policy Gradient) algoritması
İnsan geri bildirimi ile pekiştirmeli öğrenme (RLHF)
RLHF tanımı ve çalışma şekli
RLHF ile dil modelinin ince ayar yapılması
RLHF faydaları ve kısıtlamaları
Proximal Policy Optimization algoritması
Örnek pekiştirme öğrenme uygulamaları

Kazanımlar

Pekiştirmeli öğrenmenin tanımının, temel kavramlarının ve hangi amaçla kullanıldığının öğrenilmesi

Farklı ortam ve problemler için uygun pekiştirmeli öğrenme algoritmasının seçilebilmesi ve uygulanabilmesi

Kompleks ve büyük ortamlar için, yapay sinir ağlarını içeren pekiştirmeli öğrenme çözümlerinin uygulanabilmesi

Hedef Kitle

Pekiştirmeli öğrenmenin çalışma şeklini bütün teknik detayları ile öğrenmek isteyen, bu konudaki algoritmaları anlamak ve geliştirmek için gerekli alt yapıyı kazanmak isteyen teknik alt yapıya sahip kişiler için uygun bir eğitimdir.

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınavın başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.