
Eğitim Hakkında
Big Data (Büyük Veri), geleneksel veri işleme yöntemlerinin ötesinde, çok yüksek hacimli, hızlı akışlı ve çeşitli yapıdaki verilerin toplanması, depolanması, işlenmesi ve analiz edilmesini sağlayan teknolojiler bütünüdür. Bu eğitim, büyük veri kavramlarını, mimarilerini, ekosistem araçlarını ve analiz yöntemlerini derinlemesine ele alarak, işletmelerin veriye dayalı stratejik kararlar almasını destekleyecek yetkinlikleri kazandırmayı amaçlar.
Big Data; verinin hacmi (Volume), çeşitliliği (Variety), hızı (Velocity) ve güvenilirliği (Veracity) gibi boyutlarla tanımlanır. Eğitimde; dağıtık depolama sistemleri (HDFS), paralel işleme (MapReduce, Apache Spark), NoSQL veritabanları, veri entegrasyonu, gerçek zamanlı analiz, veri madenciliği ve makine öğrenmesi uygulamaları gibi konular detaylandırılacaktır.
Kimler İçindir?
- Veri mühendisleri, büyük veri analistleri ve veri bilimcileri,
- Yazılım geliştiriciler ve sistem mimarları,
- Kurumsal veri yöneticileri,
- İş zekası ve strateji geliştiren profesyoneller,
- Akademisyenler ve araştırmacılar,
- Büyük veri teknolojilerine ilgi duyan tüm teknoloji meraklıları.
Sertifika
Eğitimlerimize %80 oranında katılım gösterilmesi ve eğitim müfredatına göre uygulanacak sınav/projelerin başarıyla tamamlanması durumunda, eğitimin sonunda dijital ve QR kod destekli “BT Akademi Başarı Sertifikası” verilmektedir.
Eğitim İçeriği
- Eğitimin Tanıtımı ve Hedefler
- Eğitim içeriğinin genel çerçevesi: tarihçe, kullanım alanları ve sektör örnekleri
- Öğrenme çıktıları: temel kavramlar, mimari anlayış, uygulamalı projeler, vaka çalışmaları
- Katılımcı beklentilerinin belirlenmesi ve eğitim metodolojisinin (teorik, pratik, interaktif) açıklanması
- Big Data Kavramı ve Tarihçesi
- Geleneksel veri işleme yöntemleri ile Big Data’nın karşılaştırılması
- Büyük veri devriminin nedenleri, veri patlaması ve dijital dönüşüm süreçleri
- 4V (Volume, Velocity, Variety, Veracity) kavramlarının detaylı incelenmesi
- Temel Terimler ve Kavramlar
- Dağıtık hesaplama, paralel işleme, veri gölleri (Data Lakes) ve veri ambarları
- Batch işleme ile gerçek zamanlı (streaming) veri işleme arasındaki farklar
- Veri entegrasyonu, ETL/ELT süreçlerinin rolü ve önemi
- Hadoop Ekosistemi
- Hadoop Distributed File System (HDFS): mimari, veri depolama prensipleri ve replikasyon
- MapReduce: temel algoritma yapısı, iş akışı, örnek uygulamalar
- YARN (Yet Another Resource Negotiator): kaynak yönetimi, job scheduling ve cluster yönetimi
- Modern İşleme Motorları
- Apache Spark: in-memory hesaplama, RDD, DataFrame ve Spark SQL kavramları
- Apache Flink ve Storm: gerçek zamanlı veri işleme, micro-batch ve event-driven mimariler
- Karşılaştırmalı analiz: Batch vs. Streaming, performans ve kullanım senaryoları
- NoSQL ve Veri Ambarı Çözümleri
- NoSQL veritabanları: doküman, sütun tabanlı, anahtar-değer, grafik veritabanları örnekleri (MongoDB, Cassandra, HBase)
- Veri ambarı çözümleri: OLAP, OLTP farkları, modern veri ambarı mimarileri
- Veri Toplama Yöntemleri
- Farklı kaynaklardan veri toplama: IoT cihazları, sosyal medya, log dosyaları, API’ler
- Veri akış yönetimi: real-time veri toplanması, batch veri çekme yöntemleri
- ETL/ELT Süreçleri ve Araçları
- ETL süreçlerinin temel adımları: veri çıkarma (Extract), dönüşüm (Transform), yükleme (Load)
- ELT yaklaşımı: veriyi önce yükleyip daha sonra dönüştürme, bulut tabanlı veri işleme örnekleri
- Popüler ETL araçları: Apache NiFi, Talend, Informatica, Microsoft SSIS, Pentaho
- Veri Depolama Çözümleri
- HDFS, veri gölleri (Data Lakes) ve veri ambarı (Data Warehouse) kavramları
- Bulut tabanlı depolama: AWS S3, Azure Data Lake, Google Cloud Storage
- Veri saklama stratejileri: veri arşivleme, sıkıştırma, partitioning
- Batch İşleme Teknikleri
- MapReduce iş akışları, algoritma örnekleri, batch processing avantajları/dezavantajları
- Apache Spark ile batch işleme: RDD ve DataFrame API’leri kullanılarak veri analizi
- Gerçek Zamanlı İşleme
- Apache Spark Streaming ve Apache Flink: mimari, micro-batch vs. event-time processing
- Streaming veri kaynakları: Kafka, Flume, MQTT entegrasyonları
- Gerçek zamanlı analitik örnekleri ve dashboard entegrasyonu
- Veri Analitiği ve İş Zekası
- Tanımlayıcı analitik: veri özetleme, istatistiksel ölçütler, trend ve zaman serisi analizi
- Öngörücü analitik: regresyon, sınıflandırma, makine öğrenmesi modelleri
- BI araçları: Tableau, Power BI, Qlik Sense ile veri görselleştirme ve raporlama
- NoSQL Veritabanı Mimarileri
- Temel NoSQL kavramları, veritabanı tipleri ve kullanım senaryoları
- MongoDB, Cassandra, HBase gibi örnek veritabanlarının kurulumu, sorgulama ve performans iyileştirme
- Veri Ambarı ve Veri Gölleri
- Veri ambarı mimarisi: OLAP vs. OLTP, boyutsal modelleme, star ve snowflake şemaları
- Veri göllerinin avantajları, veri işleme süreçlerine entegrasyonu
- SQL-on-Hadoop teknolojileri: Hive, Impala, Presto
- Sorgulama Dilleri ve Analitik Çözümler
- NoSQL sorgulama dilleri, Spark SQL ve diğer analitik araçların kullanımı
- Gerçek zamanlı sorgulama ve raporlama senaryoları
- Veri Madenciliği Teknikleri
- Temel veri madenciliği yöntemleri: kümeleme, sınıflandırma, birliktelik analizi
- Büyük veri üzerinde istatistiksel ve makine öğrenmesi yöntemlerinin uygulanması
- Makine Öğrenmesi Uygulamaları
- Apache Spark MLlib: veri ön işleme, model eğitimi, validasyon ve hiperparametre optimizasyonu
- Derin öğrenme modellerinin büyük veri ile entegrasyonu, GPU hızlandırması
- Model Değerlendirme ve İyileştirme
- Performans metrikleri: doğruluk, hassasiyet, RMSE, MAE, R²
- Model geçerliliği, çapraz doğrulama, A/B testleri ve gerçek zamanlı model izleme
- Performans Tuning Teknikleri
- Partitioning stratejileri, caching ve bellek yönetimi optimizasyonları
- DAG (Directed Acyclic Graph) analizi, Spark UI kullanımı ve job profiling
- Cluster Yönetimi ve Dağıtım Stratejileri
- Cluster kurulumları ve yönetimi: YARN, Mesos, Kubernetes entegrasyonları
- Otomatik ölçeklendirme, kaynak dağılımı, yük dengeleme ve hata toleransı mekanizmaları
- Güvenlik, Erişim Kontrolleri ve Uyumluluk
- Veri şifreleme, güvenlik protokolleri, erişim yetkilendirme ve kimlik doğrulama
- Uyumluluk gereksinimleri (GDPR, HIPAA vb.), veri bütünlüğü ve denetim loglarının yönetimi
- End-to-End Büyük Veri Projeleri
- Gerçek veri setleriyle uygulamalı proje geliştirme: veri toplama, işleme, analitik ve raporlama
- Sektörel örnekler: finans, sağlık, perakende, sosyal medya, IoT
- Vaka İncelemeleri ve Grup Çalışmaları
- Başarı hikayeleri, karşılaşılan zorluklar ve çözüm stratejilerinin detaylı incelenmesi
- Grup çalışmaları, bireysel proje sunumları ve interaktif tartışmalar
- Atölye Çalışmaları ve Canlı Demo Seansları
- Hands-on oturumlar, kod incelemeleri, Spark ve Hadoop üzerinde demo projeleri
- Performans iyileştirme, hata ayıklama ve optimizasyon örnek uygulamaları
- Gelecek Trendleri ve Teknolojik Gelişmeler
- Bulut tabanlı Big Data çözümleri, serverless mimariler, edge computing
- Yapay zeka entegrasyonu, gerçek zamanlı veri işleme ve IoT verilerinde yenilikler
- Araştırma Konuları ve İnovasyon
- Akademik yayınlar, konferans bildirileri, açık kaynak projeleri ve endüstri işbirlikleri
- Yeni ETL, veri entegrasyonu ve analitik tekniklerindeki gelişmeler
- İleri Kaynaklar ve Sürekli Öğrenme
- Önerilen kitaplar, online kurslar, seminerler, çalıştaylar, web seminerleri
- Akademik topluluklar, forumlar, endüstri ağları ve mentor programları
Neden Bu Eğitimi Almalısınız ?
- Veri Hacmi ve Çeşitliliği: Artan veri miktarlarını etkin bir şekilde yöneterek, doğru içgörüler elde etmeye olanak tanır.
- Gerçek Zamanlı İşlem: Büyük veri teknolojileri, hızlı ve gerçek zamanlı veri analizi yaparak rekabet avantajı sağlar.
- Dağıtık Hesaplama: Ölçeklenebilir ve esnek mimariler sayesinde verinin artan hacmiyle başa çıkabilmeyi mümkün kılar.
- Stratejik Karar Alma: İşletmelerin veriye dayalı stratejik planlar yapmasını destekler ve inovasyonu teşvik eder.
- Kapsamlı Ekosistem: Hadoop, Spark, NoSQL, veri ambarı ve iş zekası araçları gibi geniş bir araç ve teknoloji yelpazesi ile entegrasyon sağlar.
Önemli Notlar
Program ücretlerine KDV dahil değildir.