Siniflama Modellerinin Performanslarinin Değerlendirilmesi. Veri Seti Üzerinde Uygulama


Binokay H. , Sertdemir Y.

II. Uluslararası Multidisipliner Çalışmalar Kongresi, Adana, Turkey, 4 - 05 May 2018, pp.93-97

  • Publication Type: Conference Paper / Full Text
  • City: Adana
  • Country: Turkey
  • Page Numbers: pp.93-97

Abstract

Sağlık bilimlerinde sınıflama amaçlı yapılan çalışmalar, daha çok belirli bir hastalığın tanısının konulmasında etkili olan risk faktörlerinin, istatistiksel olarak modellenerek belirlenmesi şeklinde yapılmaktadır. Bu modeller tahmin edici ve tanımlayıcı modeller olarak ikiye ayrılmaktadır. Tahmin edici modellerin amacı sonuçları bilinen verilerden bir model geliştirmek ve bu model yardımıyla sonuçları bilinmeyen yeni veri kümelerinin sonuç değerlerini tahmin etmektir. Tahmin edilecek değişken eğer sürekli ise tahmin problemi regresyon, kategorik ise sınıflama problemi olarak adlandırılmaktadır. Sınıflama ve regresyon modelleri, tahmin edici modeller içinde en yaygın kullanıma sahiptir. Bu modeller içinde en çok kullanılan yöntemler Lojistik Regresyon, Karar Ağaçları, Topluluk Yöntemleri (bagging, boosting, random forest), Destek Vektör Makinesi, K en yakın komşu ve Naive Bayes dir. Bu yöntemlerde, modeller belirlenirken farklı algoritmalar kullanılmaktadır. Bu algoritmaların başarı sıralaması veri setine göre farklılık gösterebilmektedir. Amaç: Lojistik regresyon, Karar ağacı ve Destek Vektör Makineleri yöntemleri ile analiz edilen 2 veri setinde üç yöntemin tanı ile ilgili performanslarının değerlendirilmesidir. Yöntem: Veriler %70 eğitim ve %30 test veri setleri olarak ikiye ayrılacak. Eğitim veri setine Lojistik regresyon, Karar Ağacı ve Destek Vektör Makineleri yöntemleri uygulanarak, test seti için doğruluk, eğri altında kalan alan, duyarlılık, seçicilik değerleri 1000 kez tekrar edilecektir. Analizler R 3.3.3 ile gerçekleştiriecektir. Anahtar Kelimeler: Karar Ağacı, Destek Vektör Makineleri, Lojistik Regresyon