11 Ocak 2017 Çarşamba

Mahremiyeti koruyan Naive Bayes sınıflandırması

Günümüzde, büyük veriler bulut mimarisi üzerinde, pek çok operasyonel sistemden toplanarak belli merkezlerde biriktirilmekte ve üzerlerinde çeşitli algoritmalar koşmaktadır. Bu algoritmalarla veriler detaylı analiz edilerek, işin daha iyiye götürülebilmesi için sonuçlar çıkarılmaktadır. Son 5-6 yıldır, Veri Madenciliği algoritmaları konusunda kişisel bilgilerin korunması konusunda ciddi yaptırımlar var. Kişisel verilerin güvenliği ve gizliliği sağlanarak bu tür analizlere izin verilmekte. Bu durum da bilim dünyasında, mahremiyeti koruyan yeni bir takım algoritmaların geliştirimesini sağladı.
Bu yazımızda, bilim dünyasında yaygın olarak kullanılan supervised sınıflandırma algoritmaları üzerine tanımlanan yeni uygulamalardan bahsedeceğiz.

Makine öğrenmesinde yaygın olarak kullanılan bir yöntem var: Naive Bayes sınıflandırması. Bu sınıflandırmada, bir üyenin ait olduğu sınıfı bulabilmek için olasılık teorisinden yararlanılır. Bu algoritmaya göre, bir üyenin sınıfını bulabilmek için, her bir sınıfın varolma olasılığı ile, her bir özelliğin bu sınıf içerisinde varolma olasılığının çarpımı hesaplanır ve üye  en büyük olasılığa sahip sınıfa atanır.
Böyle bir sınıflandırma, üyelerin hassas bilgilerini açığa vurabilir, dışarıda başka verilerle birleştirilerek  kötüye kullanılabilecek başka özel verilere ulaşılabilmeyi kolaylaştırabilir.
Bu sebeple, bulut mimarisi üzerinde yeralan büyük veriler sınıflandırılırken, mahremiyeti koruyan Navie Bayes sınıflandırması yapılmalıdır.

Mahremiyeti koruyan Naive Bayes sınıflandırmasında, kategorik ve nümerik verilere belli yöntemler uyarınca, belli miktarlarda Laplace gürültüsü (noise) eklenmektedir.
Belli oranda (epsilon >0.005) eklenen noise bilgisinin, sonucun doğruluğuna çok az etki ettiği ispatlanmıştır. Bu oranın üzerinde noise eklendiğinde, sonuç oldukça farklılaşmaktadır.
Normalde, verinin kendisi değiştirilmemekte, ancak bu veriye dışarıdan erişim sağlanırken ve sınıflandırılırken, sonuca noise eklenerek mahremiyet sağlanmaktadır.
Bu şekilde yapılan sınıflandırma ile, hassas ve kişisel bilgilerin korunması sağlanmaktadır.