Pekiştirmeli Öğrenme Eğitimi

Q: Pekiştirmeli Öğrenme Eğitimi eğitiminin süresi nedir?

Pekiştirmeli Öğrenme Eğitimi eğitimi toplam 30 Saat (5 Gün) sürmektedir.

Q: Pekiştirmeli Öğrenme Eğitimi eğitiminin formatı nedir?

Bu eğitim sınıf içi ve online olarak sunulmaktadır. Başarı sertifikası: Var

Eğitim Hakkında

Eğitimde öncelikle katılımcıların pekiştirmeli öğrenmenin çalışma şeklini ve amacını anlayabilmesi için pekiştirmeli öğrenmenin kavramları anlatılmaktadır. Pekiştirmeli öğrenme algoritmalarının geliştirilebilmesi için gerekli özellikler, araçlar ve stratejiler katılımcılarla paylaşılmaktadır. Farklı ortamlar için kullanılabilecek çok sayıda algoritma aktarılmaktadır. Farklı sektörlerdeki pratik kullanım örnekleri sunulmaktadır.

Bilgi İstiyorum

Süre

30 Saat (5 Gün)

Başarı Sertifikası

Var

Ön Koşul

Kontrol Ediniz

Ön Koşul

Üniversite seviyesinde temel matematik bilgisi & Temel programlama ve algoritma yazma ya da anlama becerilerinin olması & Python bilgisi şart olmamakla beraber örnek kodların anlaşılması için faydalı olacaktır.

Eğitim İçeriği

Pekiştirmeli Öğrenme Temelleri

Pekiştirmeli öğrenme nedir?
Gelişimi
Tanımı

Temel kavramlar

Temel kavramlar: Policy
Temel kavramlar: Model
Temel kavramlar: State-değer fonksiyonu

Markov Özelliği

Öğrenme hedefleri
Markov özelliği ve Markov zinciri
Markov ödül süreci (Markov reward process)
Markov karar süreci (Markov decision process-MDP)
MDP Policy
Policy araştırması

Araştırma ve Faydalanma

Araştırma ve faydalanma kavramları
E-greedy
İyimser ilk değerler ve UCB

Dinamik Programlama

Policy değerlendirmesi (Policy evaluation)
Policy iterasyonu (Policy iteration)
Değer iterasyonu(Value iteration)
Asenkron dinamik programlama

Örnekleme Dayalı Öğrenme (Sample Based Learning)

Monte Carlo değerlendirme
Monte Carlo kontrol
Zamansal fark TD(0) değerlendirme
TD(λ) değerlendirme
TD kontrol : SARSA
TD kontrol : Q-öğrenmesi (Q-learning)
TD kontrol : Beklenen SARSA
TD kontrol : SARSA (λ)
Derin Q-ağları

Geliştirme Platformları

Entegre Planlama ve Öğrenme (DYNA)

Q-planlama
DYNA-Q algoritması
DYNA-Q+ algoritması

Değer Fonksiyonu Yaklaşıklama (Value Function Approximation-VFA)

Değer fonksiyonu yaklaşıklama - tanım
Amaç fonksiyonu (MSE)
MC ve TD(0) değerlendirme
Doğrusal değer fonksiyonu yaklaşıklama
Değer fonksiyonu yaklaşıklama : kontrol
Kontrol algoritmaları
Ortalama ödül

Policy Gradyanı

Policy gradyan tanımı
REINFORCE algoritması
Aktör-Kritik yöntemi

Diğer Pekiştirmeli Öğrenme Algoritmaları

Minimax araştırması
Monte Carlo ağaç araştırması
Taklit ederek öğrenme ve tersine pekiştirmeli öğrenme
Uygulamalar

Finans Sektöründe Pekiştirmeli Öğrenme Uygulamaları

Hisse senedi ticaret botu
Portföy yönetimi
FINRL
DDPG (Deep Deterministic Policy Gradient) algoritması

İnsan Geri Bildirimi ile Pekiştirmeli Öğrenme (RLHF)

RLHF tanımı ve çalışma şekli
RLHF ile dil modelinin ince ayar yapılması
RLHF faydaları ve kısıtlamaları
Proximal Policy Optimization algoritması

Örnek Pekiştirme Öğrenme Uygulamaları

Kazanımlar

Pekiştirmeli öğrenmenin temel kavramlarını, Markov karar süreçlerini ve öğrenme hedeflerini anlayarak problem tanımlarını doğru şekilde modelleyebileceksiniz,
Dinamik programlama, örnekleme tabanlı yöntemler ve TD tabanlı algoritmaları kullanarak politika ve değer fonksiyonu öğrenme yaklaşımlarını ayırt edebileceksiniz,
Q-learning, SARSA, derin Q-ağları ve policy gradyan yöntemlerinin çalışma mantığını kavrayarak farklı senaryolara uygun algoritma seçimi yapabileceksiniz,
RLHF, finansal uygulamalar ve gerçek dünya örnekleri üzerinden pekiştirmeli öğrenmenin ileri seviye kullanım alanlarını değerlendirebileceksiniz.

Hedef Kitle

Araştırmacılar ve lisansüstü öğrenciler.
ML / AI mühendisi adayları
Veri bilimciler
Yazılım geliştiriciler

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınavın başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

Bilgi İstiyorum

Süre

30 Saat (5 Gün)

Başarı Sertifikası

Var

Ön Koşul

Kontrol Ediniz