Web sürekli büyüyen geniş bir veri kümesidir. Buna bağlı olarak yararlı bilgilere etkili bir şekilde erişmek için otomatik bir Web sayfası sınıflandırma mekanizmasına ihtiyaç duyulmaktadır. Web sayfalarının çoğunluğu HTML dokümanları biçimindedir. Bu nedenle bu çalışmanın amacı, HTML etiketlerinin sınıflandırma işlemi üzerindeki etkisini araştırmak ve sınıflandırmanın nitelik çıkarımı aşamasında kullanılabilecek en etkili HTML etiketlerini belirlemektir. Bu amaca ulaşmak için, 13 farklı veri seti ve 5 popüler sınıflayıcı (SVM, Naive Bayes, kNN, C4.5 ve OneR) kullanılmıştır. İstatistiksel analiz sonuçları, “anchor”,”
” ve”
” etiketlerini kullanarak çıkarılan niteliklerin, tüm Web sayfası kullanılarak çıkarılan niteliklere alternatif olarak kullanılabileceğini göstermektedir. SVM, bu çalışmada kullanılan sınıflandırıcılar arasında en başarılısıdır. Nitelik çıkarımı için HTML etiketlerini kullanmak sınıflandırma doğruluğunu arttırmıştır.
As the Web is a large collection of data growing daily, an automatic Webpage classification mechanism is needed to effectively reach to useful information.Majority of the Web pages are in the form of HTML documents, therefore the aimof this study is to explore the effect of HTML tags on classification process, and tryto determine the most valuable HTML tags for feature extraction of theclassification task. To achieve this goal, we employ 13 different datasets, and use 5popular classifiers that are SVM, naïve bayes (NB), kNN, C4.5, and OneR. Thestatistical analysis shows that, the features extracted by using solely the anchor,
or
tags can be used as an alternative to the features extracted from thewhole Web page. SVM is the best among the classifiers used in this study. Using theHTML tags for feature extraction improves classification accuracy.