Tanımı
Makine öğrenmesi günümüzde sıkça kullanılan bir yöntemdir. Makine öğrenmesinden pek çok alanda çözüm üretmek için faydalanılmaktadır. Öğrenme konusunda farklı yaklaşımlar mevcuttur:
- Gözetimli Öğrenme
- Gözetimsiz Öğrenme
- Yarı Gözetimli Öğrenme
- Takviyeli Öğrenme
- Pekiştirmeli Öğrenme şeklinde ifade edilebilir(Nasteski, 2017, s. 2).
Makine öğrenmesi insan beynini taklit etmeye çalışan, onun gibi kararlar verebilen ve en doğru sonuca ulaşmak için çeşitli algoritmalardan faydalanarak bir karar verme sürecinin hayat döngüsüdür.
Makine öğrenmesi veri biliminin önemli bir parçasıdır. Birçok istatistiksel yöntem kullanılır. Algoritmalardan faydalanılır. Veri üzerinde çeşitli matematiksel işlemler yapılır ve tahmin modelleri oluşturulur.
Gözetimli Öğrenme
Gözetimli öğrenme, bir algoritmanın etiketlenmiş olan verileri veya belirli olan hedef verilerin kullanılarak henüz bir netlik kazanmamış olan belirsiz / etiketsiz olayları tahmin etmesidir (Berry, Mohamed, & Yap, 2020, s. V).
Önceden belirlenmiş olan verilerle çalışan gözetimli öğrenme, tanımlanmış verilere benzer veya aynı sonuçlar verir. Ayrıca öğrenme süreci, kabul edilebilir bir performansa ulaştığı zaman sona erer (Berry, Mohamed, & Yap, 2020, s. 4).
Veri sınıfının özelliklerini, o sınıfı ve verilerin korelasyonunu kullanarak hesaplanması, gözetimli öğrenmenin kullanım alanlarından bir tanesidir (Zhao & Liu, 2007, s. 1).
Model optimizasyonu için, gözetimsiz öğrenmeye göre elimize daha temiz, kullanılabilir veriler verdiği için veri analistleri tarafından gözetimli öğrenme daha sık kullanılır (Nasteski, 2017, s. 9).
Gözetimsiz Öğrenme
Sınıflandırılmamış, kategorize edilmemiş verileri otomatik yöntem veya algoritmalar kullanarak gruplandırılmasına gözetimsiz öğrenme denir (Berry, Mohamed, & Yap, 2020, s. V).
Gözetimsiz öğrenmenin temel görevi, etiket içermeyen örnekler arasındaki benzerlikleri kullanarak otomatik biçimde bir gruplandırma oluşturup oluşturmayacağına karar vermektir. Sonuçların gözetimli öğrenmedeki kadar önceden görülebilir olmaması ile birlikte bu öğrenme şekli birçok veri kümesini oluşturulup, tahmin edilemeyen ilişkileri ortaya çıkarabilir (Nasteski, 2017, s. 3).
Gözetimli & Gözetimsiz Öğrenmenin Birbirlerinden Temel Farkları
Gözetimli öğrenmede veriler etiketli ve kategorize iken gözetimsiz öğrenmede veriler etiketli değildir (Berry, Mohamed, & Yap, 2020, s. 4).
Gözetimli öğrenmede hedef konsept verinin sınıf üyeliğine bağlı iken gözetimsiz öğrenmede hedef konsept verilerin iç yapısına odaklıdır (Zhao & Liu, 2007, s. 1).
Pekiştirmeli Öğrenme
Algoritmanın çevre etkisiyle nasıl davranacağını öğrendiği öğrenme biçimidir. Yapılan her işlem bu öğrenme şekli için bir ders niteliğindedir ve makine öğrenmesi dünyadan geri beslemeler alarak kendisini yönlendirir (Nasteski, 2017, s. 2). Pekiştirmeli öğrenme aldığı kararları, yaptığı işlemleri canlı olarak izleme fırsatı verir.
Makine Öğrenmesi Modelleri
Regresyon Modelleri
Regresyon analizi, değerlerin birbirleriyle ve birbirlerinin üzerine etkilerini inceleyen bir istatistik aracıdır (Sykes, 1993, s. 1).
Basit Doğrusal Regresyon: Veri kümelerinde gelecek tahminleri yapmak için kullanılan doğrusal regresyonda iki bilinmeyenli bir denklemde y değerini bulmak için x değeri kullanılır (Sykes, 1993, s. 3).
Çoklu Doğrusal Regresyon: Doğrusal regresyonda olduğu gibi gelecek tahmini yapmak için kullanılan çoklu doğrusal regresyonda ise y değerini bulmak için birden fazla x değer (x1, x2, x3, …, xn) kullanılmaktadır (Hayes, 2021).
Lojistik Regresyon: Bu yöntemi doğrusal regresyondan ayıran en büyük fark sonucun ikili değere sahip olmasıdır. Bu temel fark dışında birçok özelliği ile lojistik regresyon, doğrusal regresyona çok benzemektedir (Hosmer & Lemeshow, 2012).
Support Vector Machine
Vladimir Vapnik ve Alexey Chervonenkis tarafından temelleri atılmıştır. Bu makine öğrenmesi metodu istatiksel öğrenme teorisine dayalı bir gözetimli öğrenme algoritmasıdır (Akpınar, 2014).
Temel olarak nesneleri / verileri kümelemeye ve etiketlemeye yarayan bir yöntemdir. Mesela, çalışma prensibi sayesinde SVM binlerce işlem arasından sahte kredi kartı işlemini yakalayabilir. Bu işi yaparken veri içerisinde kümelenmiş olanları birbirinden ayırarak gruplandırır ve farklı / ayrılması gerekenleri ortaya çıkararak verileri gruplar. Veriler bir doğrusal çizgi ile ayrılabildiği gibi, 3 boyutlu sistemlerle de birbirinden ayrılması mümkündür. SVM sisteminde Kernel Fonksiyonundan da yararlanılmaktadır (Noble, 2006, s. 1-3).
Decision Trees (Karar Ağaçları)
Decision Trees (Karar Ağaçları) karar verme mekanizması olan karar ağaçlarının aynı zamanda problemleri, modeli görselleştirme özelliği vardır. Seçimler, riskler gibi birçok öğeyi içinde barındırır. Karar verme mekanizması, düğümler ve yollardan oluşturur. Bu düğüm ve yollar kendi içerisinde olasılıklar içermektedir ve doğru seçimler zincirleme biçimde ilerler. (Magee, 1964).
Regression Trees (Regresyon Ağaçları )
Regresyon Ağaçları (Regression Trees), verileri kullanarak bir gelecek tahmini oluşturmak olan bir makine öğrenmesidir. Verileri bölümlere ayırarak her birine bir tahmin modeli uygulayarak çalışır. Bu sistem, tahmin edilen ve gözlenen bağımsız verilerin incelenmesi yönünde çalışır. Bu sistemde, yapılan tahmin ve elde edilen gözlem sonuçları arasındaki hata payı da gözetilir (Loh, 2011).
Neural Networks
Sinirsel ağlar olarak bilinen bu algoritma yapısı insan sinir hücrelerine benzemektedir. Verilerin aktarımı ve karar verme mekanizmaları için katmanlardan oluşmaktadır. Veri aktarımı sırasında ilgili veriler bu iç katmanlarda depolanır. Her girdinin ara katmanlara bağlı olduğu bu sistemde, ara katmanlar arası geçişlerde ağırlıklandırma sistemi kullanılır. Sinirsel ağlar veri akışı sağlandıkça kendi kendini denetleyip öğrenebilen bir yapıya sahiptir (Gurney, 1997, s. 13-15).
K-Means
K-means olarak adlandırılan bu yöntem kümeleme ile ilgili sorunları çözmek için kullanılan gözetimsiz makine öğrenmesi yöntemleri arasında yer almaktadır. Algoritmanın genel mantığı, n adet veri nesnesi içeren veri setini (X), giriş parametreleri olarak verilen k (k x n) kümeye bölmektir. Amaç, bölme işlemi sonunda elde edilen kümelerin kümeler içinde en büyük, kümeler arasında en küçük benzerliğe sahip olmasını sağlamaktır (Kırmızıgül Çalışkan & Soğukpınar, 2008, s. 121).
K-Means rastgele olarak birlikte bulunan verileri en düşük hata oranı ile bir araya getirmeyi hedefleyen bu algoritma, aynı tipte olan verileri bir merkez etrafında toplayarak diğer verilerden ayrıştırır ve karışık olan verileri merkeziyetçi olarak aynı kümede toplar (Likas, Vlassis, & Verbeek, 2003, s. Abstract).
Özellikle kümeleme işlemlerinde sıkça kullanılan bu yöntem, makine öğrenmesi ile alakalı olan alanlarda sıkça kullanılır. Ayrıca görüntü işleme konularında, elde bulunan verilerin işlenerek optimum sonuca ulaşılmasında kullanılır (Likas, Vlassis, & Verbeek, 2003, s. 1).
K-Nearest Neighbor
Birçok kümeleme algoritmasının geliştirildiği bu dönemde bazı algoritmalar diğerlerinden bir adım öne çıkmaktadır. Bu algoritmalardan bir tanesi de K-Nearest Neighbor (K-NN) algoritmasıdır. K-NN algoritması genel olarak veri kümelerindeki mesafe bazlı çalışmaktadır. Bu algoritma, kümelemeyi hızlandırmak için kullanılır ve komşu veriler üzerine kuruludur. Yani, belirlenmiş olan K alanına en yakın olan veriler belirlenerek kümelenir. Örneğin k’nın yarıçapına girmiş olan x ve y verilerinin ilişkileri daha kolay tespit edilebilir (Sieranoja, 2020, s. 7-45).
K-NN ve K-Means Arasındaki Farklar
- K-mean direkt olarak benzer verileri kümelendirip sonuç verirken K-NN belirli kurallar çerçevesinde kendi içinde testler yaparak bir sonuca ulaşır.
- K-mean veriler etiketlenmeden, gruplanmadan verildiği için gözetimsiz öğrenme sisteminde (unsupervised learning) bulunurken, K-NN etiketli veriler ile çalıştığı için gözetimli öğrenme (supervised learning) sistemine sahiptir. (Akomolafe & Adegboyega, 2017, s. 36)