Makine öğrenmesinde değişken seçim yöntemlerinin karşılaştırılması: Ev enerjisi tüketim tahmini

Tez Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik A.B.D., Türkiye

Tez Danışmanı: Meral Çetin

Tezin Onay Tarihi: 2024

Tezin Dili: Türkçe

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Günümüz dijital çağında, her geçen gün artan dijital aktiviteler ve teknolojik gelişmeler sayesinde üretilen veri miktarı hızla büyümekte ve bu durum, "büyük veri" olarak adlandırılan yeni bir çalışma alanının doğuşuna zemin hazırlamaktadır. Büyük veri kavramı, sadece hacmiyle değil, çeşitliliği ve üretim hızıyla da geleneksel veri işleme tekniklerinin ötesine geçmektedir. Geleneksel istatistiksel yöntemler, bu verinin karmaşıklığı ve büyüklüğü karşısında yetersiz kalmaktadır. Bu nedenle, veri bilimi disiplini içerisinde bu devasa veri akışını etkili bir şekilde kontrol edebilmek, analiz edebilmek ve değerli bilgilere dönüştürebilmek için yeni ve daha gelişmiş yöntemlerin ve teknolojilerin geliştirilmesi kaçınılmaz hale gelmiştir. Bu yeni yöntemler, makine öğrenmesi ve yapay zekâ gibi alanlarda da önemli ilerlemelere yol açarak veriden anlam çıkarma süreçlerini daha etkin ve verimli hale getirmiştir. Bu durum, veri bilimi alanının sadece akademik bir merak konusu olmaktan çıkıp iş dünyası, sağlık, finans ve birçok diğer sektörde stratejik karar alma süreçlerinde kritik bir role sahip olmasına neden olmuştur. Bu gelişmelerle birlikte model oluşturma süreci de çok daha karmaşık hale gelmiştir. Bu noktada, modelin doğru tahmin performansını arttırmak ve anlamlı sonuçlar elde etmek için değişken seçiminin ne kadar kritik olduğu ortaya çıkmaktadır. Yanlış değişken seçimi, modelin tahmin performansını olumsuz yönde etkileyebilir ve yanıltıcı sonuçların ortaya çıkmasına zemin hazırlayabilir. Değişken seçimi, büyük veri kümelerinden elde edilen anlamlı ve doğru sonuçlar için kritik bir adımdır. Yanlış veya önemsiz değişkenlerin seçimi, modelin genel tahmin kabiliyetini ciddi şekilde bozabilir, yanıltıcı sonuçlara yol açabilir ve yanlış kararların alınmasına sebep olabilir. Bu nedenle, veri bilimi pratiklerinde doğru değişkenleri belirleyebilmek için gelişmiş seçim teknikleri ve algoritmalarının kullanımı hayati öneme sahiptir. Bu teknikler, modelin karmaşıklığını yönetmeye, aşırı uyuma (overfitting) karşı korumaya ve en önemlisi tahmin performansını iyileştirmeye yardımcı olur. Özellikle Makine Öğrenmesi (ML) ve Yapay Zekâ (AI) modellerinde doğru değişken seçimi, modelin gerçek dünya verileri üzerindeki genelleme kapasitesini artırarak daha güvenilir ve doğruluk oranı yüksek sonuçlar üretmesine olanak tanıyabilir. Bu tez çalışması, enerji tüketimi tahmininde değişken seçim yöntemlerinin tahmin performansındaki rolünü incelemektedir. Bu kapsamda, çeşitli ML algoritmaları kullanılarak değişken seçim yöntemlerinin etkinliği ve bu yöntemlerle oluşturulan modellerin performansları karşılaştırılmıştır. Çalışmada kullanılan veri kümesi, ev aletlerinin enerji tüketimini tahmin etmek amacıyla oluşturulmuş bir veri kümesidir. Bu veri kümesi, bir evdeki çeşitli odalarda ve dış cephede yerleştirilen sensörlerle 4 buçuk ay boyunca her 10 dakikada bir alınan sıcaklık ve nem ölçümlerini içermektedir. Toplamda 19735 gözlem ve 28 değişkenden oluşmaktadır. Kayıp veya eksik gözlem bulunmamaktadır. Çalışmanın temel amacı, değişken seçim yöntemlerinin ML algoritmalarının tahmin performansına olan etkilerini detaylı bir şekilde değerlendirmektir. Bu kapsamda, Korelasyon Tabanlı Seçim (CFS), Varyans Tabanlı Seçim, İleriye Doğru Seçim, Geriye Doğru Eleyerek Seçim, Adımsal Seçim, Genetik Algoritmalar Tabanlı Seçim, Lasso Regresyon Tabanlı Seçim, Ridge Regresyon Tabanlı Seçim ve Robust (Sağlam) Değişken Seçim Yöntemi kullanılmıştır. Her bir değişken seçim yöntemi sonrası seçilen değişkenlerle Doğrusal Regresyon, Karar Ağaçları, Rastgele Ormanlar, Destek Vektör Makineleri, Temel Bileşenler Analizi ve Yapay Sinir Ağları algoritmaları kullanılarak modeller oluşturulmuş ve bu modellerin performansları Ortalama Mutlak Hata (MAE), Hata Kareler Ortalaması (MSE) ve Açıklanma Oranı (R²) ölçütleri kullanılarak değerlendirilmiştir. Çalışmanın sonuçları, farklı değişken seçim yöntemleri ve ML algoritmalarının enerji tüketimi tahmin performansı üzerindeki etkilerini karşılaştırmalı olarak sunmakta ve bu alanda yapılan diğer çalışmalarla paralellikler kurarak literatüre katkı sağlamaktadır. Özellikle, hangi değişken seçim yönteminin ve ML algoritmasının enerji tüketimi tahmini için en uygun olduğu konusunda önemli bulgular elde edilmiştir. Bu bulgular, veri bilimcileri ve araştırmacılar için veri kümelerine uygun yöntem ve algoritma seçiminde rehberlik edecek niteliktedir. Çalışma, veri bilimi alanında bilgi birikiminin artırılmasına, araştırma ve uygulama metodolojilerinin geliştirilmesine ve bu dinamik disiplinin ilerlemesine katkıda bulunmayı amaçlamaktadır.