Türkçe dokümanlardaki benzerliklerin tespiti için mevcut yazılımların karşılaştırılması ve Türkçe karakter kullanımı ile kök almanın etkisinin incelenmesi

KELEŞ, MÜMİNE; ÖZEL, SELMA

Türkçe dokümanlardaki benzerliklerin tespiti için mevcut yazılımların karşılaştırılması ve Türkçe karakter kullanımı ile kök almanın etkisinin incelenmesi

KELEŞ M. K., ÖZEL S. A.

Çukurova Üniversitesi Mühendislik-Mimarlik Fakültesi Dergisi, cilt.29, sa.2, ss.115-129, 2014 (TRDizin)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 29 Sayı: 2
Basım Tarihi: 2014
Dergi Adı: Çukurova Üniversitesi Mühendislik-Mimarlik Fakültesi Dergisi
Derginin Tarandığı İndeksler: TR DİZİN (ULAKBİM)
Sayfa Sayıları: ss.115-129
Çukurova Üniversitesi Adresli: Evet

Web ortamındaki bilginin çoğalıp, Internet ve bilgi teknolojilerinin yaygın kullanılması hemen her alanda intihal vakalarının artmasına neden olmuştur. Örneğin, akademik ortamda bazı öğrenciler kendilerine eğitmenleri tarafından verilen ödevler üzerinde çeşitli intihal yöntemlerini uygulamaktadırlar. Bazı öğrenciler başkalarının çalışmasını herhangi bir değişiklik yapmadan ve sahibine atıfta bulunmadan kendi çalışması gibi gösterirken, bazı öğrenciler de diğerlerinin çalışmasını sadece bazı küçük değişiklikler yaparak sunmaktadır. Bu çalışmada amacımız intihal tespit yazılımlarından CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, YTÜ Kemik Grubu tarafından hazırlanan Metin Eşleştirme Sistemi ve Doküman Benzerliği programları ile kendi kodladığımız Kosinüs, Dice ve Jaccard metin benzerlik ölçütlerinin Türkçe örnek veri kümeleri üzerinde performanslarını karşılaştırmaktır. Buna ek olarak Türkçe karakter ve kelime köklerinin kullanımının intihal tespiti üzerindeki etkisi incelenmiştir. Sonuç olarak, Türkçe karakter kullanımının benzerlik tespitini azalttığı, ancak kelime köklerinin kullanımının ise intihal tespit araçlarının performansını arttırdığı gözlenmiştir.

The increase in the amount of available information on the Web and widespread usage of the Internet and information technologies have caused to rise in occurrence of plagiarism in almost everywhere. As an example, in academia some students have performed a variety of plagiarism methods on their assignments given by the instructors. While some students show others‟ work by their own without making any changes and giving any reference to owner, some other students submit others‟ studies by making some small changes. In this study, our aim is to compare the performance of plagiarism detection software that are CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, two other software that are Text Matching System and Document Similarity developed by YTÜ Kemik Group, as well as our implemented Cosine, Dice, and Jaccard text similarity measures on Turkish sample datasets. In addition, we have investigated the effects of using Turkish character set and Turkish stemmer on plagiarism detection. Consequently, it was observed that using Turkish characters decreases similarity detection, using stemmed words on the other hands, increases the performance of plagiarism detection tools.