Hugging Face ile Modern NLP Çözümleri

Hugging Face ile Modern NLP Çözümleri

Eğitim Hakkında

Bu yoğunlaştırılmış ve %100 uygulamalı eğitim programı, katılımcılara modern Doğal Dil İşleme'nin endüstri standardı olan Hugging Face ekosisteminde tam yetkinlik kazandırmayı hedefler. Program, on binlerce ön-eğitimli modele ev sahipliği yapan "Hub"dan başlayarak, transformers, datasets, tokenizers ve accelerate gibi temel kütüphanelerin en ince detaylarına kadar tüm iş akışını kapsar. Katılımcılar, sadece birkaç satır kodla güçlü NLP uygulamaları yaratmaktan, kendi özel veri setleri üzerinde milyarlarca parametrelik en yeni nesil dil modellerini (LLM) verimli bir şekilde "fine-tune" etmeye (ince ayar yapmaya) ve bu modelleri optimize ederek üretim ortamına taşımaya kadar, Hugging Face, yapay zekâ topluluğunun en son modelleri, veri setlerini ve araçları paylaştığı ve kullandığı merkezi bir platform ve bu platform etrafında şekillenen açık kaynaklı kütüphaneler bütünüdür. Bu eğitim, teorik bilgiyi minimumda tutarak, doğrudan bu ekosistemin temel taşlarını uygulamalı olarak öğretir: Hugging Face Hub: Modellerin, veri setlerinin ve demo uygulamalarının (Spaces) bulunduğu, NLP'nin GitHub'ı olarak kabul edilen merkezi platform. transformers Kütüphanesi: BERT, GPT, T5 gibi binlerce Transformer tabanlı modelin mimarilerini, ön-eğitimli ağırlıklarını ve bu modelleri eğitmek için kullanılan pipeline ve Trainer gibi üst düzey API'leri barındıran çekirdek kütüphane. datasets & tokenizers Kütüphaneleri: Terabaytlarca metin verisini verimli bir şekilde işlemek, hazırlamak ve modellerin anlayacağı formata (tokenization) dönüştürmek için tasarlanmış yüksek performanslı kütüphaneler. accelerate & PEFT Kütüphaneleri: Çoklu GPU/TPU üzerinde model eğitimini basitleştiren ve LoRA gibi parametre-verimli tekniklerle devasa dil modellerinin (LLM) donanım gereksinimlerini dramatik ölçüde düşüren kütüphaneler. Üretim (Production) Araçları: optimum kütüphanesi ile model hızlandırma, safetensors ile güvenli model depolama ve Inference Endpoints

Ön Koşul

Katılımcıların temel düzeyde Python programlama bilgisine sahip olmaları ve makine öğrenmesi ile doğal dil işleme (NLP) kavramlarına genel bir aşinalıklarının bulunması önerilir. PyTorch veya TensorFlow gibi derin öğrenme kütüphaneleri hakkında temel bilgi sahibi olmak eğitimin daha verimli takip edilmesini sağlayacaktır.

Eğitim İçeriği

  • Hugging Face'in Yükselişi: NLP'yi araştırma laboratuvarlarından herkesin erişimine açan felsefe.
  • Hub'ı Keşfetme: Modelleri, veri setlerini, metrikleri ve "Spaces" uygulamalarını bulma, filtreleme ve anlama.
  • transformers, datasets, tokenizers, evaluate, accelerate: Hangi kütüphanenin ne işe yaradığına dair net bir genel bakış.
  • Kurulum ve Ortam Hazırlığı: Gerekli kütüphanelerin kurulması ve Hugging Face Hub'a giriş yapılması.
  • Sıfır konfigürasyon ile metin sınıflandırma, NER, soru-cevap, özetleme gibi görevleri anında uygulama.
  • Pipeline'ın arkasındaki sihir: Model ve tokenizer'ın otomatik olarak nasıl yüklendiği.
  • Görevlere Özel Modeller: AutoModelForSequenceClassification, AutoModelForQuestionAnswering vb. arasındaki farklar.
  • Ön-eğitimli bir modeli Hub'dan yükleme ve konfigürasyonunu inceleme.
  • Tokenization nedir? WordPiece, BPE ve SentencePiece gibi alt-kelime (subword) tokenization algoritmalarının sezgisel anlatımı.
  • Bir metni token'lara ayırma, ID'lere dönüştürme ve dikkat maskesi (attention mask) oluşturma adımları.
  • Hub'daki binlerce veri setinden birini tek satır kodla yükleme.
  • Kendi lokal (CSV, JSON, metin) dosyalarınızdan bir veri seti oluşturma.
  • .map() fonksiyonu ile tüm veri setine tokenization gibi işlemleri verimli bir şekilde uygulama (multi-processing).
  • .filter(), .shuffle(), .train_test_split() gibi temel veri manipülasyon fonksiyonları.
  • Belleğe sığmayacak kadar büyük veri setleriyle (terabaytlarca) çalışma stratejileri.
  • TrainingArguments ile eğitim parametrelerini (learning rate, epoch sayısı, batch size) tanımlama.
  • Trainer nesnesini model, veri seti ve metriklerle oluşturma.
  • .train() ve .evaluate() komutları ile eğitim ve değerlendirme sürecini başlatma.
  • Trainer API'sinin arkasında olanları anlama: Kendi özel eğitim döngünüzü (training loop) yazma.
  • Veri yükleyicileri (DataLoaders) oluşturma, optimizer ve learning rate scheduler tanımlama.
  • Gradyan hesaplama, ağırlık güncelleme ve metrik takibini manuel olarak yapma. Bu yaklaşım, özel ve karmaşık eğitim senaryoları için tam kontrol sağlar.
  • Metindeki kişi, yer, kurum gibi varlıkları etiketlemek için AutoModelForTokenClassification kullanımı.
  • Bir metin parçası ve bir soru verildiğinde, cevabın başlangıç ve bitiş pozisyonunu tahmin eden modellerin (AutoModelForQuestionAnswering) fine-tuning'i.
  • GPT ve T5 gibi modellerle metin özetleme veya çeviri görevleri için Seq2Seq Trainer kullanımı.
  • LoRA'nın (Low-Rank Adaptation) sezgisel anlatımı: Modelin ana ağırlıklarını dondurup, sadece küçük "adaptör" katmanlarını eğiterek bellek kullanımını %90'dan fazla azaltma.
  • Mevcut bir transformers modeline sadece birkaç satır kodla LoRA adaptörleri ekleme.
  • 8-bit/4-bit Quantization ile LoRA'yı birleştirerek (QLoRA) tek bir GPU'da bile devasa modelleri fine-tune etme.
  • safetensors formatı ile güvenli ve hızlı model kaydetme/yükleme.
  • Optimum kütüphanesi ile ONNX dönüşümü, quantization ve distillation kullanarak modelin çıkarım (inference) hızını artırma.
  • Hugging Face Spaces: Fine-tune ettiğiniz model için hızlıca bir web demosu (Gradio/Streamlit) oluşturma ve paylaşma.
  • Hugging Face Inference Endpoints: Ölçeklenebilir, güvenli ve yönetilen bir üretim ortamı için modeli tek tıkla bir API endpoint'i olarak dağıtma.
  • Eğittiğiniz bir modeli veya veri setini Hub'da toplulukla paylaşmanın adımları ve önemi.
  • Multimodal modeller, daha verimli mimariler ve Hugging Face ekosistemindeki yeni kütüphaneler.

Kazanımlar

Olağanüstü Verimlilik: Sıfırdan bir Transformer modeli kodlamak yerine, pipeline gibi API'ler ile dakikalar içinde, Trainer API'si ile saatler içinde son teknoloji (SOTA) sonuçlar üreten çözümler geliştirmeyi öğretir.

Sınırsız Model Erişimi: Google, Meta, OpenAI gibi devlerin yanı sıra, binlerce araştırmacının eğittiği 120'den fazla dildeki on binlerce modele anında erişim ve bu modelleri kullanma imkanı sunar.

Standartlaşma ve Taşınabilirlik: PyTorch ve TensorFlow arasında kolayca geçiş yapmayı sağlayan, NLP projeleri için standartlaşmış ve tekrarlanabilir bir iş akışı sunar.

Uçtan Uca Çözüm: Veri setini bulmaktan, modeli eğitmeye, demosu için bir web arayüzü (Space) oluşturmaktan, üretim ortamına dağıtmaya kadar tüm NLP proje yaşam döngüsünü tek bir ekosistem içinde yönetmeyi öğretir.

Geleceğe Hazırlık: Parametre-verimli fine-tuning (PEFT) gibi en yeni tekniklerle, gelecekte standart olacak trilyonlarca parametrelik modellerle bile nasıl çalışılacağının temelini atar.

Hedef Kitle

NLP alanında bir kariyer hedefleyen ve portfolyolarına endüstri standardı araçlarla geliştirilmiş, somut projeler eklemek isteyen Yeni Mezunlar ve Öğrenciler.

Uygulamalarına metin anlama, üretme veya çeviri gibi yetenekler eklemek isteyen Yazılım Geliştiriciler ve Backend Mühendisleri.

Kendi özel kurumsal verileriyle (müşteri yorumları, hukuki metinler, teknik dokümanlar) en son teknoloji NLP modellerini eğitmek isteyen Veri Bilimciler ve Makine Öğrenmesi Mühendisleri.

Akademik araştırmalardan endüstriyel uygulamalara geçiş yapmak ve standartlaşmış bir iş akışı benimsemek isteyen NLP Araştırmacıları ve Uzmanları.

Sertifika

Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.

SEKTÖRÜN GÜVENDİĞİ ÇÖZÜM ORTAĞI

BT Akademi'yi tercih eden 4.000'den fazla kurum yanılmıyor.

Microsoft
Iga Airport
Innova
Türk Telekom
HDI Sigorta
Tuyap Fuarcılık
Garanti BBVA
Loreal
Tarim Kredi Kooperatifi
J.P. Morgan
Kuveyt Türk
Turk Standartlari Enstitüsü
Pegasus
Merkezi Kayıt Kuruluşu
Roketsan
Siemens
Ziraat teknoloji
Coca Cola
Turkiye Finans Katilim Bankasi
İçdaş
Axa Sigorta
Netaş
Gözen Digital
Ziraat Katılım
KKTC Turkcell
Microsoft
Iga Airport
Innova
Türk Telekom
HDI Sigorta
Tuyap Fuarcılık
Garanti BBVA
Loreal
Tarim Kredi Kooperatifi
J.P. Morgan
Kuveyt Türk
Turk Standartlari Enstitüsü
Pegasus
Merkezi Kayıt Kuruluşu
Roketsan
Siemens
Ziraat teknoloji
Coca Cola
Turkiye Finans Katilim Bankasi
İçdaş
Axa Sigorta
Netaş
Gözen Digital
Ziraat Katılım
KKTC Turkcell
Bilgi İstiyorum