Kelime Gömme Teknikleri ile Kitap Özetlerinin Kategorik Sınıflandırılması

Keskin K., Keleş M. K.

6th International Conference on Data Science and Applications (ICONDATA’24), Priştine, Kosova, 2 - 06 Eylül 2024, ss.12-21, (Tam Metin Bildiri)

Yayın Türü: Bildiri / Tam Metin Bildiri
Basıldığı Şehir: Priştine
Basıldığı Ülke: Kosova
Sayfa Sayıları: ss.12-21
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Çukurova Üniversitesi Adresli: Evet

Bu çalışmada kitap sitelerinden çekilen kitap özetleri ve kategorilerinin kelime gömme yöntemleri, doğal dil işleme teknikleri ve makine öğrenmesi algoritmaları ile sınıflandırılması yapılmıştır. Ayrıca sıklıkla kullanılan kelime gömme yöntemlerinden One Hot Encoding, Word2Vec ve Terim Frekansı - Ters Doküman Frekansı (TF-IDF) yöntemleri bu çalışmada kullanılmış ve başarı karşılaştırılması yapılmıştır. Ek olarak kullanılan ön işleme yöntemlerinin kombinasyon tablosu gösterilmiş ve başarı tablosuna eklenmiştir. Sonuçlara bakıldığında Türkçe metinler için Destek Vektör Makinesi, Naive Bayes ile Lojistik Regresyon Modellerinin ve TF-IDF ile One-Hot Encoder kelime gömme tekniklerinin daha başarılı sonuçlar verdiği gözlenmiştir.

In this study, book summaries and categories taken from book sites were classified using word embedding methods, natural language processing techniques and machine learning algorithms. In addition, one hot encoding, Word2Vec and Term Frequency - Inverse Document Frequency (TF-IDF) methods, which are frequently used word embedding methods were used in this study and their success was compared. Additionally, the combination table of the pre-processing methods used is shown and added to the table. Looking at the results, it was observed that Support Vector Machine, Naive Bayes and Logistic Regression Models and TF-IDF and One-Hot Encoder word embedding techniques gave more successful results for Turkish texts.