25 Haziran 2016 Cumartesi

"Big Data" teknolojileri

Big Data konusunda son zamanlarda bir takım önemli gelişmeler oldu. Bunlardan bir tanesi, artık verilerin büyük mainframe'ler ve UNIX server'lar yerine, birbiri ile iletişim halinde olan daha küçük Commodity server'lar üzerinde birden çok kopya olarak tutulması oldu.
Bu yeni yapıya HDFS deniyor. Veriler birden çok server üzerine çoklanarak tutuluyor. Veriler üzerinde yapılacak işlemler, verilerin durduğu server'lar üzerinde çalıştırılıyor, daha sonra oluşan sonuçlar konsolide ediliyor. Bu yapının bir diğer ismi de MAP-REDUCE.
Apache Spark ve Hadoop, bu yapıyı kullanan bir sistem.
Şu anda, pek çok dünya çapında firma (Facebook, twitter, youtube,google) tüm verileri bu yapılar üzerinde tutuyor.
MLLIB, Apache Spark üzerinde çalışan bir Machine Learning library. Apache Spark yapısında tutulan verilere, Python dili ile yazılan kodlarla erişilip bu library aracılığı ile bir takım algoritmalar çalıştırılabiliyor.
Python için, pek çok library'nin üzerinde yüklü geldiği Anaconda versiyonunu, IDE olarak da Pycharm'ı tercih etmenizi öneririm.