
Eğitim Hakkında
Bu yoğunlaştırılmış teknik program, en temel yapı taşı olan ses dalgalarından başlayarak, insan konuşmasını metne dönüştüren ve konuşmanın ötesindeki zengin bilgileri (konuşmacı kimliği, duygu durumu, ortam sesleri) çıkaran modern yapay zekâ sistemlerinin nasıl tasarlandığını ve geliştirildiğini derinlemesine inceler. Katılımcılar, ses verisinin dijital temsilini ve özellik çıkarımını öğrendikten sonra, OpenAI'nin Whisper ve Meta AI'ın Wav2Vec2 gibi en son teknoloji (state-of-the-art) Transformer tabanlı modelleri kullanarak, gürültülü ortamlarda bile yüksek doğruluklu Konuşma Tanıma (ASR) sistemleri kuracaklardır. Program, sadece transkripsiyonla sınırlı kalmayıp, bir toplantı kaydında "kimin ne zaman konuştuğunu" belirleyen Konuşmacı Ayrıştırma (Speaker Diarization) gibi kritik iş problemlerine de pratik çözümler sunar.
Konuşma Tanıma ve Ses Verisi Analizi, yapılandırılmamış ses verisini, işlenebilir, analiz edilebilir ve eyleme geçirilebilir bilgilere dönüştüren bir yapay zekâ alanıdır. Bu eğitim, sürecin tüm katmanlarını kapsar:
- Dijital Sinyal İşleme (DSP): Sesin fiziksel doğasından dijital dünyadaki temsiline yolculuk. Waveform'lar, Spektrogramlar ve özellikle derin öğrenme modellerinin "gözü" olan Mel-Frekans Cepstral Katsayıları (MFCCs) gibi temel özelliklerin çıkarılması.
- Otomatik Konuşma Tanıma (ASR) Mimarileri: Geleneksel (HMM-GMM) yaklaşımların mantığından, günümüzün Uçtan Uca (End-to-End) derin öğrenme modellerine evrim. CTC (Connectionist Temporal Classification), Sekans-Sekans (Seq2Seq) ve endüstri standardı olan Transformer tabanlı mimariler (örn: Whisper, Wav2Vec2).
- Transkripsiyonun Ötesindeki Analizler:
- Konuşmacı Ayrıştırma (Speaker Diarization): Bir ses kaydındaki farklı konuşmacıları tespit etme ve konuşma sıralarını zaman damgalarıyla etiketleme.
- Konuşma Duygu Tanıma (Speech Emotion Recognition - SER): Ses tonu, perdesi ve enerjisi gibi prosodik özelliklerden konuşmacının duygusal durumunu (mutlu, üzgün, kızgın) anlama.
- Ses Olay Tespiti (Sound Event Detection - SED): Konuşma dışındaki sesleri (cam kırılması, siren, alkış, öksürük) tanıma ve etiketleme.
- Modern Kütüphaneler: Ses işleme için Librosa, ASR ve ses modelleri için Hugging Face Transformers/Datasets, konuşmacı ayrıştırma için pyannote.audio gibi açık kaynaklı, endüstri standardı araçlar üzerinde yoğun uygulamalar yapılacaktır.
Kimler İçindir?
- Ses tabanlı uygulamalar (sesli asistanlar, transkripsiyon servisleri, interaktif sesli yanıt sistemleri) geliştiren Yapay Zekâ ve Makine Öğrenmesi Mühendisleri.
- Müşteri hizmetleri çağrılarını (call center), video konferans kayıtlarını veya medya arşivlerini analiz ederek içgörü elde etmek isteyen Veri Bilimciler ve Veri Analistleri.
- Sesli kullanıcı arayüzleri (VUI) tasarlayan ve bu arayüzlerin teknik altyapısını anlamak isteyen Kullanıcı Deneyimi (UX) Tasarımcıları ve Ürün Yöneticileri.
- Dilin fonetik ve akustik özelliklerini hesaplamalı yöntemlerle inceleyen Dilbilimciler ve Fonetik Uzmanları.
- Endüstriyel ortamlardaki makine seslerini veya akıllı ev cihazlarındaki komutları analiz eden IoT ve Gömülü Sistem Mühendisleri.
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
Eğitim İçeriği
1.1. Sesin Fiziği ve Dijital Temsili
- Analog Sinyalden Dijital Sinyale: Örnekleme (Sampling Rate), Kuantalama (Bit Depth) ve Nyquist Teoremi.
- Waveform'lar: Ses verisinin zaman domenindeki en ham hali ve görselleştirilmesi.
- Fourier Dönüşümü (FFT) ve Spektrogramlar: Sesin "parmak izini" oluşturan frekans bileşenlerini anlama ve görselleştirme.
- Kısa Süreli Fourier Dönüşümü (STFT) ile zaman ve frekans arasında denge kurma.
- İnsan kulağının algısını taklit eden Mel Ölçeği ve Mel-Frekans Cepstral Katsayıları (MFCCs): Klasik ASR'ın temel taşı.
- Log-Mel Spektrogramları: Modern derin öğrenme modellerinin tercih ettiği temel girdi formatı.
- Atölye: Librosa kütüphanesi ile bir ses dosyasını yükleme, görselleştirme ve MFCC/Mel Spektrogram özelliklerini çıkarma.
2.1. Geleneksel ASR Pipeline'ı (Tarihsel Perspektif)
- Akustik Model (ses -> fonem), Telaffuz Modeli (fonem -> kelime) ve Dil Modeli (kelime dizisi olasılığı) arasındaki ilişki.
• HMM (Saklı Markov Modelleri) ve GMM'lerin (Gauss Karışım Modelleri) rolü
- Geleneksel pipeline'ın karmaşıklığını ortadan kaldıran, ham sesten doğrudan metin üreten bütünsel modeller.
- Temel yaklaşımlara genel bakış: CTC, RNN Transducers, ve Attention-tabanlı Seq2Seq modeller.
3.1. CTC (Connectionist Temporal Classification) Mekanizması
- Ses ve metin arasındaki uzunluk farkını (alignment) otomatik olarak öğrenen, "boş" (blank) token'ları kullanan kayıp fonksiyonunun (CTC Loss) sezgisel anlatımı.
- Milyonlarca saatlik etiketsiz ses verisi üzerinden, sesin temel yapısal özelliklerini öğrenen modeller.
- Wav2Vec2'nin çok az etiketli veri ile bir dil veya aksan için nasıl hızla fine-tune edilebildiği.
- OpenAI'nin Whisper modelinin mimari yapısı: Gürültüye, farklı aksanlara ve çoklu dillere karşı neden bu kadar dayanıklı olduğu.
- Atölye: Hugging Face transformers kütüphanesi ile ön-eğitimli bir Whisper modelini kullanarak, gürültülü bir ses dosyasını ve farklı dillerdeki konuşmaları metne çevirme.
4.1. Konuşmacı Ayrıştırma (Speaker Diarization)
- Temel Adımlar: Ses Aktivite Tespiti (VAD), Konuşmacı Gömme (Speaker Embedding - x-vectors) ve Kümeleme (Clustering).
- Atölye: pyannote.audio kütüphanesi ile bir toplantı kaydında "kimin ne zaman konuştuğunu" belirleyen bir pipeline kurma.
- Sesin prozodik (enerji, perde, tempo) ve spektral özelliklerinden duygu durumlarını (mutluluk, öfke, nötr vb.) sınıflandıran modeller.
- Bu alandaki veri seti (etiketli duygu verisi) bulma zorlukları.
- Çevresel sesleri (araba kornası, bebek ağlaması, alarm) tanıma ve zaman damgasıyla etiketleme. Akıllı güvenlik ve endüstriyel izleme uygulamaları.
Aşama 1: Veri Toplama ve Hazırlık
- Farklı konuşmacıların yer aldığı, içinde İngilizce ve Türkçe konuşmaların geçtiği bir toplantı ses kaydı üzerinde çalışma.
• Whisper modelini kullanarak tüm toplantının metin dökümünü (transkript) ve konuşulan dilleri otomatik olarak elde etme
- pyannote.audio ile ses kaydındaki her bir konuşma bölümünün hangi konuşmacıya (Speaker_0, Speaker_1, vb.) ait olduğunu ve zaman aralıklarını belirleme.
- Transkript ile konuşmacı zaman aralıklarını birleştirerek, " [00:01:15 - 00:01:25] Speaker_A (tr): Proje takviminde ilerlememiz gerekiyor." formatında zenginleştirilmiş bir toplantı özeti oluşturma.
6.1. Gürültü ve Yankı ile Başa Çıkma
- Gürültü azaltma (noise reduction) ve ses zenginleştirme (speech enhancement) ön-işleme adımları.
- Gürültülü veri ile model eğitimi (data augmentation).
- Medikal, hukuki veya finansal gibi özel terminoloji gerektiren alanlar için genel bir ASR modelini fine-tune etme stratejileri (özellikle dil modelinin adaptasyonu).
- Canlı bir ses akışını, düşük gecikmeyle metne dönüştüren sistemlerin (örn: RNN Transducer tabanlı modeller) zorlukları ve mimarisi.
- Konuşmadan konuşmaya çeviri (Speech-to-Speech Translation), kişisel ses klonlama ve multimodal (ses+video) anlama sistemleri.
Neden Bu Eğitimi Almalısınız ?
- Yapılandırılmamış Veriyi Değere Dönüştürme: Kurumların en büyük ama en az kullanılan veri kaynaklarından biri olan ses ve video arşivlerini (toplantılar, çağrı merkezi kayıtları, eğitim videoları) aranabilir, analiz edilebilir ve değerli bir varlığa dönüştürür.
- Yeni Nesil Kullanıcı Deneyimleri Yaratma: İnsanların en doğal iletişim yöntemi olan sesi kullanarak, daha sezgisel, daha hızlı ve daha erişilebilir uygulamalar ve servisler (sesli asistanlar, hands-free kontrol sistemleri) geliştirme imkânı sunar.
- Derin Müşteri İçgörüsü: Çağrı merkezi kayıtlarından sadece ne konuşulduğunu değil, aynı zamanda müşterinin duygu durumunu, memnuniyet seviyesini ve konuşma dinamiklerini otomatik olarak analiz ederek müşteri deneyimini iyileştirme fırsatları sunar.
- Süreç Otomasyonu ve Verimlilik: Toplantı özetleri çıkarma, video içeriklerine altyazı ekleme, çağrı merkezlerinde kalite güvence denetimleri gibi manuel ve zaman alıcı süreçleri otomatize eder.
- En Son Teknolojiye Hakimiyet: OpenAI ve Meta AI gibi devlerin geliştirdiği en güncel, gürültüye ve farklı dillere karşı son derece dayanıklı Transformer tabanlı modelleri (Whisper, Wav2Vec2) kullanma ve fine-tune etme becerisi kazandırır.
Önemli Notlar
Program ücretlerine KDV dahil değildir.