II. Uluslararası Multidisipliner Çalışmalar Kongresi, Adana, Türkiye, 4 - 05 Mayıs 2018, ss.93-97
Sağlık bilimlerinde sınıflama amaçlı yapılan çalışmalar, daha çok belirli bir hastalığın tanısının
konulmasında etkili olan risk faktörlerinin, istatistiksel olarak modellenerek belirlenmesi şeklinde
yapılmaktadır. Bu modeller tahmin edici ve tanımlayıcı modeller olarak ikiye ayrılmaktadır. Tahmin
edici modellerin amacı sonuçları bilinen verilerden bir model geliştirmek ve bu model yardımıyla
sonuçları bilinmeyen yeni veri kümelerinin sonuç değerlerini tahmin etmektir. Tahmin edilecek
değişken eğer sürekli ise tahmin problemi regresyon, kategorik ise sınıflama problemi olarak
adlandırılmaktadır. Sınıflama ve regresyon modelleri, tahmin edici modeller içinde en yaygın
kullanıma sahiptir. Bu modeller içinde en çok kullanılan yöntemler Lojistik Regresyon, Karar
Ağaçları, Topluluk Yöntemleri (bagging, boosting, random forest), Destek Vektör Makinesi, K en
yakın komşu ve Naive Bayes dir. Bu yöntemlerde, modeller belirlenirken farklı algoritmalar
kullanılmaktadır. Bu algoritmaların başarı sıralaması veri setine göre farklılık gösterebilmektedir.
Amaç: Lojistik regresyon, Karar ağacı ve Destek Vektör Makineleri yöntemleri ile analiz edilen 2
veri setinde üç yöntemin tanı ile ilgili performanslarının değerlendirilmesidir. Yöntem: Veriler %70
eğitim ve %30 test veri setleri olarak ikiye ayrılacak. Eğitim veri setine Lojistik regresyon, Karar
Ağacı ve Destek Vektör Makineleri yöntemleri uygulanarak, test seti için doğruluk, eğri altında kalan
alan, duyarlılık, seçicilik değerleri 1000 kez tekrar edilecektir. Analizler R 3.3.3 ile
gerçekleştiriecektir.
Anahtar Kelimeler: Karar Ağacı, Destek Vektör Makineleri, Lojistik Regresyon