Feature extraction is the most important preprocessing step of text classification task. Effects ofpreprocessing techniques on text mining for English have been extensively studied. However, studies forTurkish are limited and generally belong to a specific problem domain. In this study, we investigate theeffects of feature extraction techniques on four different Turkish text classification problems includingnews classification, spam e-mail detection, sentiment analysis, and author detection to show thedifferences and similarities among the problems. We also propose a new feature selection method toreduce feature space. The experimental analysis has showed that, stopword removal improvesclassification performance. However, stemming does not make any positive effect on classificationaccuracy. The most successful term weighting methods are tf and tf*idf. The proposed feature selectionmethod improves classification performance and has higher accuracy than the well-known methods.
Nitelik çıkarımı metin sınıflamanın en önemli önişleme adımıdır. Önişleme tekniklerinin İngilizce metin sınıflandırma üzerindeki etkisi çok çalışılmış bir konu olmasına rağmen, Türkçe için bu konuda yapılmış çalışmalar oldukça sınırlı ve belirli bir problem alanına bağlıdır. Bu çalışmada nitelik çıkarımının haber sınıflama, spam e-posta tespiti, duygu analizi ve yazar tanımayı içeren dört farklı Türkçe metin sınıflandırma problemi üzerindeki etkisi araştırılmış ve problemler arasındaki benzerlik ve farklılıklar gözlenmiştir. Ayrıca yeni bir nitelik seçimi yöntemi önerilmiştir. Deneysel analizler sonucunda durak kelimelerin çıkarılmasının sınıflandırma performansını artırdığı görülmüştür. Ancak kelime köklerinin alınmasının sınıflandırma doğruluğu üzerinde olumlu bir etkisi gözlenmemiştir. En başarılı terim ağırlıklandırma yöntemlerinin tf ve tf*idf olduğu görülmüştür. Önerilen nitelik seçimi yöntemi sınıflandırma performansını iyileştirmiş ve sıklıkla kullanılan yöntemlerden daha yüksek doğruluk değerine sahip olmuştur.