XIX. ULUSAL ve II. ULUSLARARASI BİYOİSTATİSTİK KONGRESİ, Antalya, Türkiye, 25 - 28 Ekim 2017, ss.108
Özet: Sağlık bilimlerinde sınıflama amaçlı yapılan çalışmalar, daha çok belirli bir hastalığın
tanısının konulmasında etkili olan risk faktörlerinin, istatistiksel olarak modellenerek
belirlenmesi şeklinde yapılmaktadır. Bu modeller tahmin edici ve tanımlayıcı modeller olarak
ikiye ayrılmaktadır.
Tahmin edici modellerin amacı sonuçları bilinen verilerden bir model geliştirmek ve bu model
yardımıyla sonuçları bilinmeyen yeni veri kümelerinin sonuç değerlerini tahmin etmektir.
Tahmin edilecek değişken eğer sürekli ise tahmin problemi regresyon, kategorik ise sınıflama
problemi olarak adlandırılmaktadır. Sınıflama ve regresyon modelleri, tahmin edici modeller
içinde en yaygın kullanıma sahiptir. Bu modeller içinde en çok kullanılan yöntemler Lojistik
Regresyon, Karar Ağaçları, Topluluk Yöntemleri (bagging, boosting, random forest), Destek
Vektör Makinesi, K en yakın komşu ve Naive Bayes dir. Bu yöntemlerde, modeller belirlenirken
farklı algoritmalar kullanılmaktadır. Bu algoritmaların başarı sıralaması veri setine göre farklılık
gösterebilmektedir.
Amaç: Lojistik regresyon, Karar ağacı ve Random Forest yöntemleri ile analiz edilen yeni doğan
sepsis verilerinde üç yöntemin tanı ile ilgili performanslarının değerlendirilmesidir.
Yöntem: Veriler %70 eğitim ve %30 test veri setleri olarak ikiye ayrılacak. Eğitim veri setine
Lojistik regresyon, Karar Ağacı ve Random Forest yöntemleri uygulanarak, test seti için doğruluk,
eğri altında kalan alan, duyarlılık, seçicilik değerleri 1000 kez tekrar edilecektir. Analizler R 3.3.3
ile gerçekleştirilmiştir.
Bulgular: Sepsis verisi üzerinde yapılan çalışmalarda doğruluğun(Accuracy) 3 yöntem içinde
birbirine yakın olduğu, Lojistik regresyon yönteminde ise etkileşim terimlerinin de bulunduğu
modelde duyarlılığının diğer yöntemlere göre daha iyi olduğu gözlemlenmiştir. Random Forest ve
Lojistik Regresyon yöntemlerinde seçiciliğin daha iyi olduğu, eğri altında kalan alanlarda ise
Lojistik regresyon ve Random Forest yöntemlerinin daha iyi sonuç verdiği gözlemlenmiştir.
Sonuç: Bu veri seti için Lojistik Regresyon ve Random Forest yöntemleri Karar Ağaçlarına göre
daha iyi performans gösterdiği saptanmıştır.
Anahtar Sözcükler: Karar Ağacı, Random Forest, Lojistik Regresyon