Sınıflama ve Regresyon Modellerinin Performanslarının Değerlendirilmesi. Bir Veri Seti Üzerine Uygulama


Binokay H., Sertdemir Y.

XIX. ULUSAL ve II. ULUSLARARASI BİYOİSTATİSTİK KONGRESİ, Antalya, Turkey, 25 - 28 October 2017, pp.108

  • Publication Type: Conference Paper / Summary Text
  • City: Antalya
  • Country: Turkey
  • Page Numbers: pp.108
  • Çukurova University Affiliated: Yes

Abstract

Özet: Sağlık bilimlerinde sınıflama amaçlı yapılan çalışmalar, daha çok belirli bir hastalığın tanısının konulmasında etkili olan risk faktörlerinin, istatistiksel olarak modellenerek belirlenmesi şeklinde yapılmaktadır. Bu modeller tahmin edici ve tanımlayıcı modeller olarak ikiye ayrılmaktadır. Tahmin edici modellerin amacı sonuçları bilinen verilerden bir model geliştirmek ve bu model yardımıyla sonuçları bilinmeyen yeni veri kümelerinin sonuç değerlerini tahmin etmektir. Tahmin edilecek değişken eğer sürekli ise tahmin problemi regresyon, kategorik ise sınıflama problemi olarak adlandırılmaktadır. Sınıflama ve regresyon modelleri, tahmin edici modeller içinde en yaygın kullanıma sahiptir. Bu modeller içinde en çok kullanılan yöntemler Lojistik Regresyon, Karar Ağaçları, Topluluk Yöntemleri (bagging, boosting, random forest), Destek Vektör Makinesi, K en yakın komşu ve Naive Bayes dir. Bu yöntemlerde, modeller belirlenirken farklı algoritmalar kullanılmaktadır. Bu algoritmaların başarı sıralaması veri setine göre farklılık gösterebilmektedir. Amaç: Lojistik regresyon, Karar ağacı ve Random Forest yöntemleri ile analiz edilen yeni doğan sepsis verilerinde üç yöntemin tanı ile ilgili performanslarının değerlendirilmesidir. Yöntem: Veriler %70 eğitim ve %30 test veri setleri olarak ikiye ayrılacak. Eğitim veri setine Lojistik regresyon, Karar Ağacı ve Random Forest yöntemleri uygulanarak, test seti için doğruluk, eğri altında kalan alan, duyarlılık, seçicilik değerleri 1000 kez tekrar edilecektir. Analizler R 3.3.3 ile gerçekleştirilmiştir. Bulgular: Sepsis verisi üzerinde yapılan çalışmalarda doğruluğun(Accuracy) 3 yöntem içinde birbirine yakın olduğu, Lojistik regresyon yönteminde ise etkileşim terimlerinin de bulunduğu modelde duyarlılığının diğer yöntemlere göre daha iyi olduğu gözlemlenmiştir. Random Forest ve Lojistik Regresyon yöntemlerinde seçiciliğin daha iyi olduğu, eğri altında kalan alanlarda ise Lojistik regresyon ve Random Forest yöntemlerinin daha iyi sonuç verdiği gözlemlenmiştir. Sonuç: Bu veri seti için Lojistik Regresyon ve Random Forest yöntemleri Karar Ağaçlarına göre daha iyi performans gösterdiği saptanmıştır. Anahtar Sözcükler: Karar Ağacı, Random Forest, Lojistik Regresyon