Veri Bilimi Serisi #5: Apache Spark Nedir?

tarafından | Kas 18, 2019

Büyük Veri’yi işlemek için kullanılan projelerin bir diğeri, Apache Spark. Birçok kaynakta Spark’ı anlatmaya Hadoop ile karşılaştırarak başlanır. Hadoop ile karşılaştırabileceğimiz kısımları olduğu doğrudur; ancak Hadoop ve Spark birebir aynı işlevi görmez. Gelin daha detaylı inceleyelim.

Spark, bir büyük veri işleme motorudur. Veri üzerinde paralel işlem yapmaya yarar, açık kaynak kodludur ve Spark diliyle yazılmıştır.

Spark ile Neler Yapılır?

Veri Entegrasyonu ve ETL (extract, transform, load):

Birçok kaynaktan gelen veriyi görselleştirme, işleme ve analiz edilebilmesi için temizleyip birleştirme işlemidir. Spark ile yapılabilir.

Makine Öğrenmesi ve İleri Seviye Analitik:

Karışık algoritmalar kullanarak çıktıların tahmin edilmesi, hata tespiti, saklı verilerin çıkarılması ve girdilere göre karar verilmesi için kullanılır.

Streaming (Gerçek zamanlı veri işleme):

Hata oranı en az olacak şekilde sürekli veri toplama ve işlemeye denir. E-ticarette verilen siparişlerin anında sisteme düşmesi veya bankadaki hesap hareketlerinin takip edilebilmesi, gerçek zamanlı veri işlemeye örnek olarak verilebilir.

Spark Ekosistemi

Spark Core

Büyük ölçekli paralel ve dağıtık verinin işlenmesi için en temel motordur. İçerdiği kütüphaneleri kullanarak çeşitli işler yapılmasına izin verir. Spark’ın en temel görevlerini yerine getirmesini sağlar. R, SQL, Python, Scala ve Java ile çalışır. Spark SQL, Streaming, MLlib ve GraphX uygulama programlama arayüzlerini (API) destekler.

Bu arayüz ile SQL veya Hive Query Language aracılığıyla veri sorgulama desteklenir. RDBMS veritabanları için Spark SQL performans arttırıcı bir çözüm sunar.*

Gerçek zamanlı veri akışlarının verimli olarak işlenmesini sağlar.

Apache Spark’ta makine öğrenmesi çalışabilmek için kullanılan kütüphanedir.

Grafikler ve etkileşimli grafik hesaplamaları için kullanılan arayüzdür.

Spark ve Hadoop

Apache Spark ve Hadoop, benzer ama asla birebir aynı olmayan sistemlerdir. Farklı alanlarda karşılaştırılabilir ancak biri diğerinin ikamesi değildir. Yapacağınız projeyi göz önünde bulundurarak özellikleri değerlendirip bir karar vermeniz gerekir. Spark; yüksek performans hızı, sürekli işlemlerde kolaylık, grafik işleme, gerçek zamanlı analiz ve makine öğrenmesi özelliklerini barındırır. Ama eğer projenizde bütünlük sağlayacak bir dosya sistemine ihtiyacınız varsa, gerçek zamanlı bir uygulama geliştirmiyorsanız ve veri setleriniz büyük boyutluysa, Hadoop sizin için daha doğru bir seçim olacaktır.  Eğer gerçek zamanlı veri işleme ve işlenen verileri saklama özelliklerini bir arada arıyorsanız HDFS için her iki sistemi de kullanmanız yararlı olur. Gördüğünüz gibi , karşılaştırılabilecek özellikleri olsa da Spark ve Hadoop’u aynı kefeye koymak mümkün değildir. Projenizin gereksinimlerini bilerek iki teknolojiden birini seçmelisiniz.

Apache Spark hakkında detaylı bilgi verdik. Faydalı olacağını umuyoruz. Sorularınız için bize ulaşın. Veri bilimi hakkında diğer bilgiler için Blog sayfamıza göz atın. Bir sonraki yazımızda görüşmek üzere!

Kaynakça:
*https://medium.com/5bayt/apache-spark-nedir-ne-i%C5%9F-yapar-5797c28eb95
https://medium.com/@amine.yesilyurt/apache-spark-nedir-sparka-giri%C5%9F-582d2e0059af
https://ozgununlu.com/blog-detay/apache-spark-nedir

haliloncen Hakkında;

İlgili Yazılar

Veri Bilimi Serisi #4: Apache Hadoop

Veri Bilimi Serisi #4: Apache Hadoop

Büyük Veri ve işlenmesi konusunda daha önce bazı yazılar paylaşmıştık. Büyük Veri’yi analiz etmek için kullanılan Veri Bilimi ve yöntemleri hakkında daha fazla bilgi için bu yazılarımıza göz atabilirsiniz. Bugün Veri Bilimi Serisi’nin 4. Yazısında Apache Hadoop...

daha fazla bilgi edinin
Veri Bilimi Serisi #3: Apache Kafka

Veri Bilimi Serisi #3: Apache Kafka

İnternet evlerimize ve ceplerimize girdiğinden beri gelişen ve sürekli büyüyen “Büyük Veri” kavramı da giderek önem kazanmaya başladı. Hatta geleneksel veritabanı araçlarıyla yönetilemeyecek büyüklükte olan bu verinin analiz edilebilmesi için bir bilim dalı bile...

daha fazla bilgi edinin

0 Yorum

Bir İçerik Gönder

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir