Clustering Using Genetic Algorithm in Data Mining


Tekeli E., Akay Ö., Yüksel G.

I. Uluslararası Uygulamalı İstatistik Kongresi, Tokat, Türkiye, 1 - 04 Ekim 2020, ss.1

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Tokat
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1
  • Çukurova Üniversitesi Adresli: Evet

Özet

Veri madenciliğinde yaygın şekilde kullanılan, kümeleme analizi, m adet özelliğe sahip n adet birimin çeşitli algoritmalar ve elde bulunan bilgiler doğrultusunda k adet alt kümeye ayırma işlemidir. Kümeleme analizinde kullanılan bu çeşitli algoritmalar aynı veri seti için farklı kümeleme sonuçları verebilmektedir. Bu durumda birimlerin doğru kümelendiği en uygun algoritmayı bulmak gerekmektedir. Bu çalışmada birimlerin doğru kümelerde bulunmasını sağlamak amacıyla optimizasyon ve arama probleminde tam ya da yaklaşık sonuçlar bulabilen ve sezgisel bir algoritma olan genetik algoritma ile kümeleme analizi yapılmıştır. Genetik algoritmada kullanılmak üzere uygunluk fonksiyonu tanımlanmış ve simülasyon çalışmalarıyla desteklenerek gerçek veri üzerinde uygulanmıştır. Hem simülasyon hem de gerçek veriler için küme geçerlilik indeksleri hesaplanarak en çok kullanılan kümeleme algoritmaları ile karşılaştırılmıştır. Elde edilen sonuçlar genetik algoritma ile kümelemenin daha doğru sonuçlar verdiğini göstermiştir.

Commonly used in data mining, cluster analysis is the process of separating n units with m features into k subset in accordance with various algorithms and available information. These various algorithms used in cluster analysis can give different cluster results for the same data set. In this case, it is necessary to find the most appropriate algorithm where the units are clustered correctly. In this study, in order to ensure that the units are in the right clusters, cluster analysis was performed with a genetic algorithm, which is an intuitive algorithm that can find exact or approximate results in the optimization and search problem. The suitability function has been defined for use in genetic algorithms and applied to real data sets. Moreover, the results were supported by executing a simulation study. Clustering performance was calculated with different cluster validity indexes for both simulation study and real data, and the results were compared with the most used clustering algorithms.  The obtained results showed that clustering with a genetic algorithm gives more accurate results.