Prenatal tanıda yapay zeka: Gradient boosting tabanli makine öğrenmesi algortimalarinin gücü ile Down sendromu risk değerlendirmesi


Yalçın E., KOÇ T. K., ASLAN S., Demir S. C., evrüke c., Sucu M., ...Daha Fazla

Turkish Journal of Obstetrics and Gynecology, cilt.22, sa.2, ss.121-128, 2025 (ESCI) identifier identifier

Özet

Amaç: Down sendromu (Trizomi 21), prenatal dönemde en sık rastlanan kromozomal anomalilerden biridir. Gebeliğin birinci trimesterinde uygulanan kombine tarama testleri, Down sendromu riskinin belirlenmesi için önemli bir araç olarak kullanılmaktadır. Bu çalışma, birinci trimester tarama testi verileri kullanılarak Down sendromu riskini tahmin etmek amacıyla farklı makine öğrenmesi ve derin öğrenme modellerini karşılaştırmalı olarak değerlendirmeyi amaçlamaktadır. Gereç ve Yöntemler: Çalışma kapsamında, 2020-2024 yılları arasında Çukurova Üniversitesi Kadın Doğum Kliniği’nde birinci trimester tarama testine tabi tutulan 959 gebeye ait biyokimyasal ve biyofiziksel verileri analiz edilmiştir. Eksik ve hatalı veriler temizlendikten sonra, 853 gözlemden oluşan nihai veri seti üzerinde çeşitli ön işleme ve normalizasyon teknikleri uygulanmıştır. Farklı makine öğrenmesi modelleri kullanılarak Down sendromu risk tahmini gerçekleştirilmiş, model performansları doğruluk oranları ve diğer değerlendirme metrikleri üzerinden karşılaştırılmıştır. Bulgular: Deneysel sonuçlar, CatBoost modelinin %95,31 doğruluk oranı ile en yüksek başarıyı sağladığını göstermiştir. Bunun yanı sıra, XGBoost ve LightGBM modelleri sırasıyla %95,19 ve %94,84 doğruluk oranları ile yüksek performans sergilemiştir. Çalışmada ayrıca sınıf dengesizliği probleminin model performansı üzerindeki etkileri detaylı olarak incelenmiş ve bu dengesizliği azaltmaya yönelik çeşitli stratejiler değerlendirilmiştir. Sonuç: Elde edilen bulgular, gradient boosting tabanlı makine öğrenmesi modellerinin Down sendromu risk tahmininde önemli bir potansiyele sahip olduğunu göstermektedir. Bu yaklaşımın, prenatal tarama süreçlerindeki doğruluk oranını artırarak, gereksiz invaziv testlerin azaltılmasına ve klinik karar alma süreçlerinin iyileştirilmesine katkı sağlaması beklenmektedir. Gelecekteki çalışmalar, daha geniş veri setleri üzerinde modelin genelleştirme kapasitesini artırmayı ve farklı makine öğrenmesi algoritmalarıyla entegrasyon sağlamayı hedeflemelidir.
Objective: One of the most common chromosomal abnormalities seen during pregnancy is Down syndrome (Trisomy 21). To determine the risk of Down syndrome, first-trimester combined screening tests are essential. Using data from the first-trimester screening test, this study compares machine learning and deep learning models to forecast the risk of Down syndrome. Materials and Methods: Within the scope of the study, biochemical and biophysical data of 959 pregnant women who underwent first-trimester screening tests at Çukurova University Obstetrics and Gynecology Clinic between 2020-2024 were analyzed. After cleaning missing and erroneous data, various preprocessing and normalization techniques were applied to the final dataset consisting of 853 observations. Down syndrome risk prediction was performed using different machine learning models, and model performances were compared based on accuracy rates and other evaluation metrics. Results: Experimental results show that the CatBoost model provides the highest success rate, with an accuracy rate of 95.31%. In addition, the XGBoost and LightGBM models exhibited high performance, with accuracy rates of 95.19% and 94.84%, respectively. The study also examines the effects of the class imbalance problem on model performance in detail and evaluates various strategies to reduce this imbalance. Conclusion: The findings show that gradient boosting-based machine learning models have significant potential in Down syndrome risk prediction. This approach is expected to contribute to the reduction of unnecessary invasive tests and improve clinical decision-making processes by increasing the accuracy rate in prenatal screening processes. Future studies should aim to increase the generalization capacity of the model on larger data sets and to provide integration with different machine learning algorithms.