Retrieval-Augmented Generation Eğitimi

Retrieval-Augmented Generation Eğitimi

Eğitim Hakkında

Retrieval-Augmented Generation (RAG), büyük dil modellerinin (LLM) dış bilgi kaynaklarına “sorgu-getir-yanıtla” yöntemiyle erişmesini sağlar. Böylece model parametrelerine gömülmemiş bilgileri gerçek-zamanlı çekerek daha güncel, doğru ve izlenebilir çıktılar sunar. Bu eğitim, RAG mimarisinin temel kavramlarını, bileşenlerini ve end-to-end üretim süreçlerini tanıtarak katılımcıların doğru-kaynaklı, ölçeklenebilir ve bakımı kolay RAG sistemleri kurabilmesini hedefler. RAG; Bilgi Erişim (Retrieval) katmanı → Sembolik veya vektör tabanlı arama ile bağlam toplar. Üretim (Generation) katmanı → LLM’nin toplanan bağlamı kullanarak nihai yanıt üretmesini sağlar. Bu iki aşamanın pipeline hâlinde otomatik orkestrasyonu, “hallucination” riskini azaltır, veri soy kütüğünü (data lineage) korur ve çıktıları denetlenebilir kılar.

Ön Koşul

Bu eğitimin herhangi bir ön koşulu yoktur.

Eğitim İçeriği

  • Hoş Geldiniz ve Eğitimin Hedefleri  ○ Program formatı (teori + laboratuvar + mini-proje) ve zaman çizelgesi  ○ Katılımcı profili: veri bilimci, platform mühendisi, ürün sahibi, danışman  ○ Başarı göstergeleri:
  • Kendi doküman havuzunda çalışan bir RAG servisi yayınlama
  • Retrieval + generation metriklerini ölçüp iyileştirme
  • Hallucination oranını %40 → %5’e düşürme vaka ödevi
  • RAG Tanımı, Motivasyonu ve Tarihçesi  ○ LLM’lerin sınırlılıkları: parametre-içi bilgi sınırı, “staleness”  ○ 2020 Facebook RAG → FiD (2021) → HyDE (2022) → ReACT/Self-RAG (2023-24)  ○ Arama (IR) mirası: BM25, TF-IDF → Dense Retrieval; retrieval-tabanlı diyalog
  • Temel Bileşenler ve Yaşam Döngüsü  ○ Doküman katmanı: veri kaynakları, ETL, chunking, meta-tag enrichment  ○ Embedding katmanı: sentence-transformer, çok-dilli modeller, domain adaptasyonu  ○ Vektör DB: FAISS / Qdrant / Weaviate / pgvector; HNSW, IVF-PQ, Disk-ANN  ○ LLM katmanı: GPT-4o, Llama-3-70B-Instruct, Mistral-8B, Phi-3-mini, PaLM-2-RAG  ○ Fusion & Prompting: Stuff, Map-Reduce, Refine, Tree-of-Thoughts, Graph-of-Thoughts  ○ İzleme-Değerlendirme: recall@k, MRR, nDCG, faithfulness, latency, token/s  ○ Sürekli gelişim: feedback-loop, self-evaluation, RLHF/RLAIF
  • semantik bölümleme
  • kaymalı pencere
  • heading-aware splitting
  • Metadata zenginleştirme: belge ID, sürüm, yazar, güvenlik etiketi, tarih
  • Veri & Embedding Versiyonlama Stratejileri  ○ Depo hiyerarşisi: /data, /chunks, /embeddings, /index, /models  ○ DVC-remote + Git-LFS snapshot, MLflow artefact store  ○ Semantic versioning: v1.3-finance-tr-chunks → v1.3.1 bugfix rollback  ○ Disaster-recovery: delta-sync, cold-storage, co-location replication  ○ Veri soy kütüğü: Airflow/Marquez + OpenMetadata
  • GitLab-CI parent-child
  • GitHub Actions reusable workflows
  • Artefact deposu: Harbor/Artifactory (Docker) + S3 (Embedding) + MLflow (Model)
  • Gizli değişken yönetimi: HashiCorp Vault, Azure Key Vault, Doppler
  • Loglama ve Olay Yönetimi  ○ OpenTelemetry trace ID propagation (frontend → retriever → LLM)  ○ Central log: Loki/Elastic; JSON structured logging (query, doc_ids, citation_score)
  • faithfulness < 0.6 (Critical)
  • Olay RCA: mis-ranking, stale index, prompt-drift, GPU OOM
  • Sürekli İyileştirme Döngüsü  ○ Feedback store: kullanıcı beğeni/şikâyet, ground-truth QA  ○ Otomatik etiketleme: GPT-tabanlı self-grading (RAGAS)  ○ Embedding refresh koşulları: yeni doküman > N veya recall düşüşü > %10  ○ AB/online-learning: Lexicographic Diverse Retriever, Progressive Rerank
  • Veri ve Model Güvenliği  ○ Uçtan uca TLS 1.3, mTLS gRPC; JWT-bound access token  ○ PII/PHI maskeleme: regex + NER-tabanlı redaction  ○ Embedding sızıntısı önleme: reversible hashing, k-anonim chunk store  ○ Prompt injection savunması: allow-list function-calling, param-guard, regex sandbox  ○ Adversarial test paketi: “Rome jailbreak”, “Doc-rank overflow”, “Similarity poison”
  • Etik ve Regülasyon  ○ Kaynak gösterme: citation-id → URL → timestamp; log izlenebilirliği  ○ Bias audit: fairness toolkit, counterfactual evaluation  ○ KVKK/GDPR: veri minimizasyonu, silme talebi akışı, veri yerelliği  ○ EU AI Act: “Limited Risk – Generative Search Assistant”  ○ Denetim & rapor: model card, data sheet, algorithmic impact assessment

Kazanımlar

Retrieval-Augmented Generation mimarisinin bileşenlerini ve uçtan uca yaşam döngüsünü derinlemesine kavrama yeteneği kazandırma.

Kurumsal ve çok kaynaklı veri havuzları üzerinde etkili chunking, embedding ve vektör arama stratejileri tasarlayabilme yeteneği kazandırma.

Hallucination oranı düşük, kaynak gösterilebilir ve denetlenebilir RAG tabanlı LLM uygulamaları geliştirebilme yeteneği kazandırma.

RAG pipeline’larını CI/CD, versiyonlama, izleme ve geri alma (rollback) mekanizmalarıyla birlikte üretim ortamına alabilme yeteneği kazandırma.

Retrieval ve generation performansını ölçen metriklerle (recall@k, nDCG, faithfulness, latency) sistemleri sürekli iyileştirebilme yeteneği kazandırma.

Güvenlik, gizlilik, KVKK/GDPR ve EU AI Act uyumunu gözeten kurumsal RAG mimarileri tasarlayabilme yeteneği kazandırma.

Hedef Kitle

Veri bilimcileri ve makine öğrenmesi mühendisleri, kurumsal veri kaynaklarıyla entegre çalışan RAG tabanlı LLM sistemleri geliştirmek isteyenler,

NLP ve bilgi erişim (Information Retrieval) alanında çalışan araştırmacılar ve mühendisler,

Backend, platform ve MLOps mühendisleri, üretim ortamında ölçeklenebilir ve izlenebilir RAG servisleri kurmak isteyenler,

Kurum içi doküman, mevzuat, bilgi tabanı veya arşiv verileri üzerinde akıllı arama ve soru-cevap sistemleri geliştirmek isteyen ekipler,

Hallucination riski düşük, kaynak gösterilebilir ve regülasyon uyumlu yapay zeka uygulamaları tasarlamayı hedefleyen profesyoneller.

LLM tabanlı ürünler geliştiren ürün yöneticileri, teknik liderler ve çözüm mimarları,

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI

BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.

Aselsan
Gözen Digital
Enerjisa
İş Portföy
Isdemir
Doğuş Teknoloji
Şişecam
Bosch
AssisTT
BKM
Saglık Bakanlıgı
Softtech
Akbank
Turkcell
Loreal
Toyota
Turkiye Finans Katilim Bankasi
QNB Finansbank
Tuyap Fuarcılık
Tırsan Treyler
Tatilbudur
Akçansa
Getir
Işik Universitesi
Merkezi Kayıt Kuruluşu
Aselsan
Gözen Digital
Enerjisa
İş Portföy
Isdemir
Doğuş Teknoloji
Şişecam
Bosch
AssisTT
BKM
Saglık Bakanlıgı
Softtech
Akbank
Turkcell
Loreal
Toyota
Turkiye Finans Katilim Bankasi
QNB Finansbank
Tuyap Fuarcılık
Tırsan Treyler
Tatilbudur
Akçansa
Getir
Işik Universitesi
Merkezi Kayıt Kuruluşu
Bilgi İstiyorum