
Eğitim Hakkında
Bu yoğunlaştırılmış ve %100 uygulamalı eğitim programı, katılımcılara modern Doğal Dil İşleme'nin endüstri standardı olan Hugging Face ekosisteminde tam yetkinlik kazandırmayı hedefler. Program, on binlerce ön-eğitimli modele ev sahipliği yapan "Hub"dan başlayarak, transformers, datasets, tokenizers ve accelerate gibi temel kütüphanelerin en ince detaylarına kadar tüm iş akışını kapsar. Katılımcılar, sadece birkaç satır kodla güçlü NLP uygulamaları yaratmaktan, kendi özel veri setleri üzerinde milyarlarca parametrelik en yeni nesil dil modellerini (LLM) verimli bir şekilde "fine-tune" etmeye (ince ayar yapmaya) ve bu modelleri optimize ederek üretim ortamına taşımaya kadar,
Hugging Face, yapay zekâ topluluğunun en son modelleri, veri setlerini ve araçları paylaştığı ve kullandığı merkezi bir platform ve bu platform etrafında şekillenen açık kaynaklı kütüphaneler bütünüdür. Bu eğitim, teorik bilgiyi minimumda tutarak, doğrudan bu ekosistemin temel taşlarını uygulamalı olarak öğretir:
- Hugging Face Hub: Modellerin, veri setlerinin ve demo uygulamalarının (Spaces) bulunduğu, NLP'nin GitHub'ı olarak kabul edilen merkezi platform.
- transformers Kütüphanesi: BERT, GPT, T5 gibi binlerce Transformer tabanlı modelin mimarilerini, ön-eğitimli ağırlıklarını ve bu modelleri eğitmek için kullanılan pipeline ve Trainer gibi üst düzey API'leri barındıran çekirdek kütüphane.
- datasets & tokenizers Kütüphaneleri: Terabaytlarca metin verisini verimli bir şekilde işlemek, hazırlamak ve modellerin anlayacağı formata (tokenization) dönüştürmek için tasarlanmış yüksek performanslı kütüphaneler.
- accelerate & PEFT Kütüphaneleri: Çoklu GPU/TPU üzerinde model eğitimini basitleştiren ve LoRA gibi parametre-verimli tekniklerle devasa dil modellerinin (LLM) donanım gereksinimlerini dramatik ölçüde düşüren kütüphaneler.
- Üretim (Production) Araçları: optimum kütüphanesi ile model hızlandırma, safetensors ile güvenli model depolama ve Inference Endpoints
Kimler İçindir?
- Uygulamalarına metin anlama, üretme veya çeviri gibi yetenekler eklemek isteyen Yazılım Geliştiriciler ve Backend Mühendisleri.
- Kendi özel kurumsal verileriyle (müşteri yorumları, hukuki metinler, teknik dokümanlar) en son teknoloji NLP modellerini eğitmek isteyen Veri Bilimciler ve Makine Öğrenmesi Mühendisleri.
- Akademik araştırmalardan endüstriyel uygulamalara geçiş yapmak ve standartlaşmış bir iş akışı benimsemek isteyen NLP Araştırmacıları ve Uzmanları.
- NLP alanında bir kariyer hedefleyen ve portfolyolarına endüstri standardı araçlarla geliştirilmiş, somut projeler eklemek isteyen Yeni Mezunlar ve Öğrenciler.
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
Eğitim İçeriği
1.1. Modern NLP'nin Demokratikleşmesi
- Hugging Face'in Yükselişi: NLP'yi araştırma laboratuvarlarından herkesin erişimine açan felsefe.
- Hub'ı Keşfetme: Modelleri, veri setlerini, metrikleri ve "Spaces" uygulamalarını bulma, filtreleme ve anlama.
- transformers, datasets, tokenizers, evaluate, accelerate: Hangi kütüphanenin ne işe yaradığına dair net bir genel bakış.
- Kurulum ve Ortam Hazırlığı: Gerekli kütüphanelerin kurulması ve Hugging Face Hub'a giriş yapılması.
2.1. En Kolay Yol: pipeline API'si
- Sıfır konfigürasyon ile metin sınıflandırma, NER, soru-cevap, özetleme gibi görevleri anında uygulama.
- Pipeline'ın arkasındaki sihir: Model ve tokenizer'ın otomatik olarak nasıl yüklendiği.
- Görevlere Özel Modeller: AutoModelForSequenceClassification, AutoModelForQuestionAnswering vb. arasındaki farklar.
- Ön-eğitimli bir modeli Hub'dan yükleme ve konfigürasyonunu inceleme.
- Tokenization nedir? WordPiece, BPE ve SentencePiece gibi alt-kelime (subword) tokenization algoritmalarının sezgisel anlatımı.
- Bir metni token'lara ayırma, ID'lere dönüştürme ve dikkat maskesi (attention mask) oluşturma adımları.
3.1. Veri Setlerini Yükleme ve Keşfetme
- Hub'daki binlerce veri setinden birini tek satır kodla yükleme.
• Kendi lokal (CSV, JSON, metin) dosyalarınızdan bir veri seti oluşturma.
- .map() fonksiyonu ile tüm veri setine tokenization gibi işlemleri verimli bir şekilde uygulama (multi-processing).
- .filter(), .shuffle(), .train_test_split() gibi temel veri manipülasyon fonksiyonları.
- Belleğe sığmayacak kadar büyük veri setleriyle (terabaytlarca) çalışma stratejileri.
4.1. Yaklaşım 1: Trainer API'si ile Hızlı ve Kolay Fine-Tuning
- TrainingArguments ile eğitim parametrelerini (learning rate, epoch sayısı, batch size) tanımlama.
- Trainer nesnesini model, veri seti ve metriklerle oluşturma.
- .train() ve .evaluate() komutları ile eğitim ve değerlendirme sürecini başlatma.
- Trainer API'sinin arkasında olanları anlama: Kendi özel eğitim döngünüzü (training loop) yazma.
- Veri yükleyicileri (DataLoaders) oluşturma, optimizer ve learning rate scheduler tanımlama.
- Gradyan hesaplama, ağırlık güncelleme ve metrik takibini manuel olarak yapma. Bu yaklaşım, özel ve karmaşık eğitim senaryoları için tam kontrol sağlar.
5.1. Token Sınıflandırma (NER - Varlık İsmi Tanıma)
- Metindeki kişi, yer, kurum gibi varlıkları etiketlemek için AutoModelForTokenClassification kullanımı.
- Bir metin parçası ve bir soru verildiğinde, cevabın başlangıç ve bitiş pozisyonunu tahmin eden modellerin (AutoModelForQuestionAnswering) fine-tuning'i.
• GPT ve T5 gibi modellerle metin özetleme veya çeviri görevleri için Seq2Seq Trainer kullanımı.
- LoRA'nın (Low-Rank Adaptation) sezgisel anlatımı: Modelin ana ağırlıklarını dondurup, sadece küçük "adaptör" katmanlarını eğiterek bellek kullanımını %90'dan fazla azaltma.
- Mevcut bir transformers modeline sadece birkaç satır kodla LoRA adaptörleri ekleme.
- 8-bit/4-bit Quantization ile LoRA'yı birleştirerek (QLoRA) tek bir GPU'da bile devasa modelleri fine-tune etme.
7.1. Modeli Üretime Hazırlama
- safetensors formatı ile güvenli ve hızlı model kaydetme/yükleme.
- Optimum kütüphanesi ile ONNX dönüşümü, quantization ve distillation kullanarak modelin çıkarım (inference) hızını artırma.
- Hugging Face Spaces: Fine-tune ettiğiniz model için hızlıca bir web demosu (Gradio/Streamlit) oluşturma ve paylaşma.
- Hugging Face Inference Endpoints: Ölçeklenebilir, güvenli ve yönetilen bir üretim ortamı için modeli tek tıkla bir API endpoint'i olarak dağıtma.
- Eğittiğiniz bir modeli veya veri setini Hub'da toplulukla paylaşmanın adımları ve önemi.
- Multimodal modeller, daha verimli mimariler ve Hugging Face ekosistemindeki yeni kütüphaneler.
Neden Bu Eğitimi Almalısınız ?
- Olağanüstü Verimlilik: Sıfırdan bir Transformer modeli kodlamak yerine, pipeline gibi API'ler ile dakikalar içinde, Trainer API'si ile saatler içinde son teknoloji (SOTA) sonuçlar üreten çözümler geliştirmeyi öğretir.
- Sınırsız Model Erişimi: Google, Meta, OpenAI gibi devlerin yanı sıra, binlerce araştırmacının eğittiği 120'den fazla dildeki on binlerce modele anında erişim ve bu modelleri kullanma imkanı sunar.
- Standartlaşma ve Taşınabilirlik: PyTorch ve TensorFlow arasında kolayca geçiş yapmayı sağlayan, NLP projeleri için standartlaşmış ve tekrarlanabilir bir iş akışı sunar.
- Uçtan Uca Çözüm: Veri setini bulmaktan, modeli eğitmeye, demosu için bir web arayüzü (Space) oluşturmaktan, üretim ortamına dağıtmaya kadar tüm NLP proje yaşam döngüsünü tek bir ekosistem içinde yönetmeyi öğretir.
- Geleceğe Hazırlık: Parametre-verimli fine-tuning (PEFT) gibi en yeni tekniklerle, gelecekte standart olacak trilyonlarca parametrelik modellerle bile nasıl çalışılacağının temelini atar.
Önemli Notlar
Program ücretlerine KDV dahil değildir.