Lojistik regresyon ve farklı sınıflama modellerinin performanslarının karşılaştırılması

Tez Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Çukurova Üniversitesi, Sağlık Bilimleri Enstitüsü, Temel Tıp Bilimleri, Türkiye

Tez Danışmanı: Doç. Dr. Yaşar Sertdemir

Tezin Onay Tarihi: 2018

Tezin Dili: Türkçe

Desteklendiği Program: Diğer

Özet:

Sağlık alanında sınıflama modelleri hastalıkların seyrinin tahmin edilmesinde ve tanı koymada sık kullanılan modellerdir. Bu modeller arasında en sık kullanılan ve en iyi bilineni Lojistik regresyon(LR) dur ancak son yıllarda kullanımı artan sınıflama modellerinin performansları konusunda henüz yeterli bilgiye sahip değiliz. Bu tezde kullanılan Karar Ağacı(KA), Random Forest(RF), Destek Vektör Makineleri(DVM) ve Naive Bayes(NB) sınıflama modelleri yanıt değişkenin iki değerli ve açıklayıcı değişkenlerin kategorik ve/veya sürekli olabildiği modellerden seçilmiştir. Bu tezde, LR yöntemi ile diğer yöntemlerin farklı örnek büyüklüğü, prevelans, açıklayıcı değişken tipi ve tanımlayıcılık katsayısı durumunda, etkileşim terimlerini bulunduran ve etkileşim terimlerini bulundurmayan 2 farklı model ile veri setleri üretilerek sınıflama modellerinin performanslarının karşılaştırılması amaçlanmıştır. Ayrıca literatürden alınan 12 gerçek veri seti için performansları karşılaştırılmıştır. Genel olarak etkileşim terimlerini bulundurmayan modelde NB yönteminin performansı diğer yöntemlerden daha yüksek ve LR yöntemi ile benzer sonuçlar verdiği gözlenmiştir. Etkileşim terimlerini bulunduran modelde, düşük örnek büyüklüğünde NB yönteminin diğer yöntemlerden daha iyi performans göstermiştir. Orta ve büyük veri setlerinde DVM ve RF yöntemlerinin daha iyi performans göstermektedir. Bunula birlikte KA ve DVM yöntemleri düşük prevalans, düşük tanımlayıcılık katsayısı ve küçük örnek büyüklüğünde sınıflama yapamadığı durumların çok fazla olduğu(%50) gözlenmiştir. Gerçek veri setleri analizlerde DVM ve RF yöntemleri daha iyi performans gösterdiği gözlenmiştir.