Hugging Face ile Modern NLP Çözümleri

Eğitim Hakkında

Bu yoğunlaştırılmış ve %100 uygulamalı eğitim programı, katılımcılara modern Doğal Dil İşleme'nin endüstri standardı olan Hugging Face ekosisteminde tam yetkinlik kazandırmayı hedefler. Program, on binlerce ön-eğitimli modele ev sahipliği yapan "Hub"dan başlayarak, transformers, datasets, tokenizers ve accelerate gibi temel kütüphanelerin en ince detaylarına kadar tüm iş akışını kapsar. Katılımcılar, sadece birkaç satır kodla güçlü NLP uygulamaları yaratmaktan, kendi özel veri setleri üzerinde milyarlarca parametrelik en yeni nesil dil modellerini (LLM) verimli bir şekilde "fine-tune" etmeye (ince ayar yapmaya) ve bu modelleri optimize ederek üretim ortamına taşımaya kadar,

Hugging Face, yapay zekâ topluluğunun en son modelleri, veri setlerini ve araçları paylaştığı ve kullandığı merkezi bir platform ve bu platform etrafında şekillenen açık kaynaklı kütüphaneler bütünüdür. Bu eğitim, teorik bilgiyi minimumda tutarak, doğrudan bu ekosistemin temel taşlarını uygulamalı olarak öğretir:

Hugging Face Hub: Modellerin, veri setlerinin ve demo uygulamalarının (Spaces) bulunduğu, NLP'nin GitHub'ı olarak kabul edilen merkezi platform.
transformers Kütüphanesi: BERT, GPT, T5 gibi binlerce Transformer tabanlı modelin mimarilerini, ön-eğitimli ağırlıklarını ve bu modelleri eğitmek için kullanılan pipeline ve Trainer gibi üst düzey API'leri barındıran çekirdek kütüphane.
datasets & tokenizers Kütüphaneleri: Terabaytlarca metin verisini verimli bir şekilde işlemek, hazırlamak ve modellerin anlayacağı formata (tokenization) dönüştürmek için tasarlanmış yüksek performanslı kütüphaneler.
accelerate & PEFT Kütüphaneleri: Çoklu GPU/TPU üzerinde model eğitimini basitleştiren ve LoRA gibi parametre-verimli tekniklerle devasa dil modellerinin (LLM) donanım gereksinimlerini dramatik ölçüde düşüren kütüphaneler.
Üretim (Production) Araçları: optimum kütüphanesi ile model hızlandırma, safetensors ile güvenli model depolama ve Inference Endpoints

Kimler İçindir?

Uygulamalarına metin anlama, üretme veya çeviri gibi yetenekler eklemek isteyen Yazılım Geliştiriciler ve Backend Mühendisleri.
Kendi özel kurumsal verileriyle (müşteri yorumları, hukuki metinler, teknik dokümanlar) en son teknoloji NLP modellerini eğitmek isteyen Veri Bilimciler ve Makine Öğrenmesi Mühendisleri.
Akademik araştırmalardan endüstriyel uygulamalara geçiş yapmak ve standartlaşmış bir iş akışı benimsemek isteyen NLP Araştırmacıları ve Uzmanları.
NLP alanında bir kariyer hedefleyen ve portfolyolarına endüstri standardı araçlarla geliştirilmiş, somut projeler eklemek isteyen Yeni Mezunlar ve Öğrenciler.

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

Eğitim İçeriği

1. Modül: Hugging Face Ekosistemine Stratejik Bakış ve Temel Bileşenler

1.1. Modern NLP'nin Demokratikleşmesi

Hugging Face'in Yükselişi: NLP'yi araştırma laboratuvarlarından herkesin erişimine açan felsefe.
Hub'ı Keşfetme: Modelleri, veri setlerini, metrikleri ve "Spaces" uygulamalarını bulma, filtreleme ve anlama.

1.2. Ekosistemin Temel Kütüphaneleri

transformers, datasets, tokenizers, evaluate, accelerate: Hangi kütüphanenin ne işe yaradığına dair net bir genel bakış.
Kurulum ve Ortam Hazırlığı: Gerekli kütüphanelerin kurulması ve Hugging Face Hub'a giriş yapılması.

2. Modül: transformers Kütüphanesinin Kalbi: Pipeline, Tokenizer ve Modeller

2.1. En Kolay Yol: pipeline API'si

Sıfır konfigürasyon ile metin sınıflandırma, NER, soru-cevap, özetleme gibi görevleri anında uygulama.
Pipeline'ın arkasındaki sihir: Model ve tokenizer'ın otomatik olarak nasıl yüklendiği.

2.2. Modelin Anatomisi: AutoModel Sınıfları

Görevlere Özel Modeller: AutoModelForSequenceClassification, AutoModelForQuestionAnswering vb. arasındaki farklar.
Ön-eğitimli bir modeli Hub'dan yükleme ve konfigürasyonunu inceleme.

2.3. Dili Sayılara Dökme: AutoTokenizer

Tokenization nedir? WordPiece, BPE ve SentencePiece gibi alt-kelime (subword) tokenization algoritmalarının sezgisel anlatımı.
Bir metni token'lara ayırma, ID'lere dönüştürme ve dikkat maskesi (attention mask) oluşturma adımları.

3. Modül: Veri Yönetimi ve Hazırlığı: datasets Kütüphanesi

3.1. Veri Setlerini Yükleme ve Keşfetme

Hub'daki binlerce veri setinden birini tek satır kodla yükleme.

• Kendi lokal (CSV, JSON, metin) dosyalarınızdan bir veri seti oluşturma.

3.2. Yüksek Performanslı Veri İşleme

.map() fonksiyonu ile tüm veri setine tokenization gibi işlemleri verimli bir şekilde uygulama (multi-processing).
.filter(), .shuffle(), .train_test_split() gibi temel veri manipülasyon fonksiyonları.
Belleğe sığmayacak kadar büyük veri setleriyle (terabaytlarca) çalışma stratejileri.

4. Modül: Uçtan Uca Fine-Tuning (İnce Ayar) Atölyesi

4.1. Yaklaşım 1: Trainer API'si ile Hızlı ve Kolay Fine-Tuning

TrainingArguments ile eğitim parametrelerini (learning rate, epoch sayısı, batch size) tanımlama.
Trainer nesnesini model, veri seti ve metriklerle oluşturma.
.train() ve .evaluate() komutları ile eğitim ve değerlendirme sürecini başlatma.

4.2. Yaklaşım 2: Saf PyTorch/TensorFlow ile Esnek Fine-Tuning

Trainer API'sinin arkasında olanları anlama: Kendi özel eğitim döngünüzü (training loop) yazma.
Veri yükleyicileri (DataLoaders) oluşturma, optimizer ve learning rate scheduler tanımlama.
Gradyan hesaplama, ağırlık güncelleme ve metrik takibini manuel olarak yapma. Bu yaklaşım, özel ve karmaşık eğitim senaryoları için tam kontrol sağlar.

5. Modül: Farklı NLP Görevleri için Fine-Tuning Stratejileri

5.1. Token Sınıflandırma (NER - Varlık İsmi Tanıma)

Metindeki kişi, yer, kurum gibi varlıkları etiketlemek için AutoModelForTokenClassification kullanımı.

5.2. Soru-Cevap (Extractive Question Answering)

Bir metin parçası ve bir soru verildiğinde, cevabın başlangıç ve bitiş pozisyonunu tahmin eden modellerin (AutoModelForQuestionAnswering) fine-tuning'i.

5.3. Metin Üretme (Text Generation)

• GPT ve T5 gibi modellerle metin özetleme veya çeviri görevleri için Seq2Seq Trainer kullanımı.

6. Modül: Büyük Dil Modelleri (LLM) için Verimli Fine-Tuning (PEFT)

6.1. Milyarlarca Parametrenin Zorluğu: Donanım ve Bellek Kısıtları

6.2. Parametre-Verimli Fine-Tuning (PEFT) ve LoRA

LoRA'nın (Low-Rank Adaptation) sezgisel anlatımı: Modelin ana ağırlıklarını dondurup, sadece küçük "adaptör" katmanlarını eğiterek bellek kullanımını %90'dan fazla azaltma.

6.3. PEFT Kütüphanesi ile Pratik Uygulama

Mevcut bir transformers modeline sadece birkaç satır kodla LoRA adaptörleri ekleme.
8-bit/4-bit Quantization ile LoRA'yı birleştirerek (QLoRA) tek bir GPU'da bile devasa modelleri fine-tune etme.

7. Modül: Üretim (Production) ve Optimizasyon

7.1. Modeli Üretime Hazırlama

safetensors formatı ile güvenli ve hızlı model kaydetme/yükleme.
Optimum kütüphanesi ile ONNX dönüşümü, quantization ve distillation kullanarak modelin çıkarım (inference) hızını artırma.

7.2. Modeli Dağıtma (Deployment) Seçenekleri

Hugging Face Spaces: Fine-tune ettiğiniz model için hızlıca bir web demosu (Gradio/Streamlit) oluşturma ve paylaşma.
Hugging Face Inference Endpoints: Ölçeklenebilir, güvenli ve yönetilen bir üretim ortamı için modeli tek tıkla bir API endpoint'i olarak dağıtma.

7.3. Pipeline'ların Ötesi: Kendi Agent ve Uygulamalarınızı Geliştirme

8. Modül: Sonuç, Ekosisteme Katkı ve Gelecek Trendleri

8.1. Proje Sunumları ve Kod İncelemesi

8.2. Açık Kaynağa Katkı Kültürü

Eğittiğiniz bir modeli veya veri setini Hub'da toplulukla paylaşmanın adımları ve önemi.

8.3. Gelecek Trendleri

Multimodal modeller, daha verimli mimariler ve Hugging Face ekosistemindeki yeni kütüphaneler.

Neden Bu Eğitimi Almalısınız ?

Olağanüstü Verimlilik: Sıfırdan bir Transformer modeli kodlamak yerine, pipeline gibi API'ler ile dakikalar içinde, Trainer API'si ile saatler içinde son teknoloji (SOTA) sonuçlar üreten çözümler geliştirmeyi öğretir.
Sınırsız Model Erişimi: Google, Meta, OpenAI gibi devlerin yanı sıra, binlerce araştırmacının eğittiği 120'den fazla dildeki on binlerce modele anında erişim ve bu modelleri kullanma imkanı sunar.
Standartlaşma ve Taşınabilirlik: PyTorch ve TensorFlow arasında kolayca geçiş yapmayı sağlayan, NLP projeleri için standartlaşmış ve tekrarlanabilir bir iş akışı sunar.
Uçtan Uca Çözüm: Veri setini bulmaktan, modeli eğitmeye, demosu için bir web arayüzü (Space) oluşturmaktan, üretim ortamına dağıtmaya kadar tüm NLP proje yaşam döngüsünü tek bir ekosistem içinde yönetmeyi öğretir.
Geleceğe Hazırlık: Parametre-verimli fine-tuning (PEFT) gibi en yeni tekniklerle, gelecekte standart olacak trilyonlarca parametrelik modellerle bile nasıl çalışılacağının temelini atar.

Önemli Notlar

Program ücretlerine KDV dahil değildir.

Paylaş:

Süre
30 Saat (5 Gün)
Ücret
Sorunuz

Önemli kampanyalardan haberdar olmak için Rıza Metni kapsamında bilgilendirilmek istiyorum.