Research Article
BibTex RIS Cite

Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama

Year 2021, Volume: 14 Issue: 2, 86 - 98, 22.12.2021
https://doi.org/10.54525/tbbmd.998983

Abstract

Hızla ve kontrolsüzce artan veri dünyasında, veri tekilleştirme büyük bir ihtiyaçtır. Veri tekilleştirme, veri tabanında yinelenen verilerin kopyalarını ortadan kaldırmak ya da onları tespit ederek, eşsiz kimlik numarası ile betimlemek için kullanılan bir tekniktir. Oteller veri tabanında; ismi, adresi, acente bilgisi, ve fiyat bilgisi bulunan bir otelin, kayıtlarda farklı isim ve kimlik numaları ile bulunması, karşılaştırma olanağı sunmamaktadır. Rakip analizinin tam anlamıyla yapılabilmesi, rakip fiyat durumlarının bilinmesi ve pazar takibi bütün bu otel isimlerinin tekilleştirilmesi ile mümkündür. Bu çalışmanın amacı, otel isimlerini eşleştirerek, eş olan otelleri tek bir kimlik numarası ile tanımlamak ve tekil veriyi elde etmektir.
Veri tekilleştirme için çeşitli metin benzerliği algoritmaları kullanılır. Bu çalışmada, Metin Benzerliği algoritmaları otel isimleri üzerinden karşılaştırılmıştır. Mesafe düzenleme bazlı benzerlik, belirteç bazlı benzerlik, diziliş tabanlı benzerlik algoritmaları ile bulanık dize eşleme algoritmaları incelenmiştir. Çalışmanın sonucunda Bulanık dize eşleme algoritmasının ve Jaro Winkler mesafesinin birlikte kullanıldığı hibrit bir model önerilmiştir.

Supporting Institution

TUBİTAK

Project Number

3192318

Thanks

Bu çalışma, TUBİTAK tarafından desteklenen TEYDEB 3192318 numaralı, Yapay Zeka İle Çoklu Tedarikçi Yapılarında, Otellerin Ve Oda Tiplerinin Eşleştirilmesi projesinden oluşturulmuştur. Desteği için TUBİTAK’a teşekkür ederiz.

References

  • S. Kemp, «we are social - Dıgıtal 2021: The Latest Insıghts Into The ‘State Of Dıgıtal,» January, New York, 2021.
  • S. Karacan ve S. Çiftçioğlu, «TURİZM İŞLETMELERİNDE ELEKTRONİK TİCARETİN ETKİSİ,» Uluslararası Turizm, İşletme, Ekonomi Dergisi, pp. 245-252, 2018.
  • Türkiye Otelciler Birliği, «Türkiye Otelciler Birliği,» 2 March 2021. [Çevrimiçi]. Available: http://www.turob.com/tr/istatistikler/hotrec-2020-online-dagitim-kanallari-calismasi.
  • M. Pullman ve S. Rodgers, «Capacity management for hospitality and tourism: A review of current approaches,» International Journal of Hospitality Management , cilt 29(1), p. 177–187, 2010.
  • S. Niwattanakul, J. Singthongchai, E. Naenudorn ve S. Wanapu, «Using of Jaccard Coefficient for Keywords,» Proceedings of the International MultiConference of Engineers and Computer Scientists, cilt 1, 2013.
  • J. M. Duarte, J. B. d. Santos ve L. C. Melo, «Comparıson Of Sımılarıty Coeffıcıents Based On Rapd,» Genetics and Molecular Biology, cilt 22, no. 3, pp. 427-432, 1999.
  • X. Jin, S. Zhang, J. Liu ve H. Guan, «Research on Similarity Detection of Massive Text based on Semantic Fingerprint,» Proceedings of Science, 2017.
  • G. Chen, G. Chen, D. Wu, Q. Liu, L. Zhang ve X. Fan, «An improved Simhash algorithm based malicious mirror website detection method,» Journal of Physics: Conference Series, 2021.
  • M.K.Vijaymeena ve K.Kavitha, «A Survey On Sımılarıty Measures In Text Mınıng,» Machine Learning and Applications: An International Journal (MLAIJ), cilt 3, no. 1, pp. 19-28, 2016.
  • M. Mansoor, M. Shaheen ve Z. U. R. , «Deep Learning Based Semantic Similarity Detection Using Text Data,» Information Technology and Control, cilt 4, no. 49, pp. 495-510, 2020.
  • A. T. Bayrak, E. E. Özbek ve S. Kestepe, «Aynı Oteli Temsil Eden Farklı Kayıtlar için Akıllı Eşleştirme,» researchgate.
  • R. Editör, «Regna,» 29 March 2017. [Çevrimiçi]. Available: https://www.regna.com.tr/veri-tekillestirme-nedir. [Erişildi: 18 September 2021].
  • R. T. Ionescu ve M. Popescu, Knowledge Transfer between Computer Vision and Text Mining, Switzerland: Springer, 2016.
  • «wikipedia.org,» [Çevrimiçi]. Available: https://en.wikipedia.org/wiki/Levenshtein_distance. [Erişildi: 16 09 2021].
  • H. Khudeer ve H. Erbay, «Hibrit Karga-Genetik Algoritmasını Kullanarak 3 Boyutlu Kutu Paketleme Problemi Çözme,» Veri Bilimi Dergisi, cilt 4, no. 1, pp. 8-22, 2021.
  • P. Christen, «A Comparison of Personal Name Matching: Techniques and Practical Issues,» 2006.
  • K. M. M. Aung ve A. N. Htwe, «Comparison of Levenshtein Distance Algorithm and Needleman-Wunsch Distance Algorithm for String Matching,» National Journal of Parallel and Soft Computing, cilt 1, no. 1, pp. 209-213, 2019.
  • A. Ansari, «bioinfoguide.com,» January 2018. [Çevrimiçi]. Available: https://bioinfoguide.com/index.php/algorithms-and-methods/11-smith-waterman-algorithm. [Erişildi: 10 September 2021].
  • F. Öztemiz ve A. Karcı, «Akademik Yazarların Yayınları Arasındaki İlişkinin Sosyal Ağ Benzerlik Yöntemleri İle Tespit Edilmesi,» Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, cilt 25, no. 1, pp. 591-608, 2020.
  • B. K. Ülkü, «Panoramik Radyografi Görüntülerinde Maksiller Ve Mandibular Yapıların Sınırlarının Belirlenmesi için Yarı Gözetimli bir Metot,» TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü Yüksek Lisans Tezi, 2019.
  • J. Han, M. Kamber ve J. Pei, Data Mining Concepts and Techniques, USA: Morgan Kaufmann, 2012.
  • S. R. Hashemi, S. S. M. Salehi ve D. Erdogmus, «Tversky as a Loss Function for Highly Unbalanced Image Segmentation using 3D Fully Convolutional Deep Networks,» 2018.
  • I. Zarembo, A. Teilans, A. Rausis ve J. Buls, «Assessment of Name Based Algorithms for Land Administration Ontology Matching,» Procedia Computer Science, cilt 43, pp. 53-61, 2015.
  • G. Recchia ve M. Louwerse, «A Comparison of String Similarity Measures for Toponym Matching,» ResearchGate, 2013.
  • I. Ilyankou, «Comparison of Jaro-Winkler and Ratcliff/Obershelp algorithms in spell check,» IB Extended Essay Computer Science, 2014.
  • Olufade, F. W. Onifade, M. IAENG ve O. Thiéry, «Dynamic Fuzzy String-Matching Model for Information Retrieval Based on Incongruous User Queries,» Proceedings of the World Congress on Engineering, cilt 1, 2010.
  • «developers.google.com,» google, [Çevrimiçi]. Available: https://developers.google.com/maps/documentation/places/web-service/overview. [Erişildi: 12 September 2021].
  • «geopy,» pypi.org, [Çevrimiçi]. Available: https://pypi.org/project/geopy/. [Erişildi: 21 July 2021].
Year 2021, Volume: 14 Issue: 2, 86 - 98, 22.12.2021
https://doi.org/10.54525/tbbmd.998983

Abstract

Project Number

3192318

References

  • S. Kemp, «we are social - Dıgıtal 2021: The Latest Insıghts Into The ‘State Of Dıgıtal,» January, New York, 2021.
  • S. Karacan ve S. Çiftçioğlu, «TURİZM İŞLETMELERİNDE ELEKTRONİK TİCARETİN ETKİSİ,» Uluslararası Turizm, İşletme, Ekonomi Dergisi, pp. 245-252, 2018.
  • Türkiye Otelciler Birliği, «Türkiye Otelciler Birliği,» 2 March 2021. [Çevrimiçi]. Available: http://www.turob.com/tr/istatistikler/hotrec-2020-online-dagitim-kanallari-calismasi.
  • M. Pullman ve S. Rodgers, «Capacity management for hospitality and tourism: A review of current approaches,» International Journal of Hospitality Management , cilt 29(1), p. 177–187, 2010.
  • S. Niwattanakul, J. Singthongchai, E. Naenudorn ve S. Wanapu, «Using of Jaccard Coefficient for Keywords,» Proceedings of the International MultiConference of Engineers and Computer Scientists, cilt 1, 2013.
  • J. M. Duarte, J. B. d. Santos ve L. C. Melo, «Comparıson Of Sımılarıty Coeffıcıents Based On Rapd,» Genetics and Molecular Biology, cilt 22, no. 3, pp. 427-432, 1999.
  • X. Jin, S. Zhang, J. Liu ve H. Guan, «Research on Similarity Detection of Massive Text based on Semantic Fingerprint,» Proceedings of Science, 2017.
  • G. Chen, G. Chen, D. Wu, Q. Liu, L. Zhang ve X. Fan, «An improved Simhash algorithm based malicious mirror website detection method,» Journal of Physics: Conference Series, 2021.
  • M.K.Vijaymeena ve K.Kavitha, «A Survey On Sımılarıty Measures In Text Mınıng,» Machine Learning and Applications: An International Journal (MLAIJ), cilt 3, no. 1, pp. 19-28, 2016.
  • M. Mansoor, M. Shaheen ve Z. U. R. , «Deep Learning Based Semantic Similarity Detection Using Text Data,» Information Technology and Control, cilt 4, no. 49, pp. 495-510, 2020.
  • A. T. Bayrak, E. E. Özbek ve S. Kestepe, «Aynı Oteli Temsil Eden Farklı Kayıtlar için Akıllı Eşleştirme,» researchgate.
  • R. Editör, «Regna,» 29 March 2017. [Çevrimiçi]. Available: https://www.regna.com.tr/veri-tekillestirme-nedir. [Erişildi: 18 September 2021].
  • R. T. Ionescu ve M. Popescu, Knowledge Transfer between Computer Vision and Text Mining, Switzerland: Springer, 2016.
  • «wikipedia.org,» [Çevrimiçi]. Available: https://en.wikipedia.org/wiki/Levenshtein_distance. [Erişildi: 16 09 2021].
  • H. Khudeer ve H. Erbay, «Hibrit Karga-Genetik Algoritmasını Kullanarak 3 Boyutlu Kutu Paketleme Problemi Çözme,» Veri Bilimi Dergisi, cilt 4, no. 1, pp. 8-22, 2021.
  • P. Christen, «A Comparison of Personal Name Matching: Techniques and Practical Issues,» 2006.
  • K. M. M. Aung ve A. N. Htwe, «Comparison of Levenshtein Distance Algorithm and Needleman-Wunsch Distance Algorithm for String Matching,» National Journal of Parallel and Soft Computing, cilt 1, no. 1, pp. 209-213, 2019.
  • A. Ansari, «bioinfoguide.com,» January 2018. [Çevrimiçi]. Available: https://bioinfoguide.com/index.php/algorithms-and-methods/11-smith-waterman-algorithm. [Erişildi: 10 September 2021].
  • F. Öztemiz ve A. Karcı, «Akademik Yazarların Yayınları Arasındaki İlişkinin Sosyal Ağ Benzerlik Yöntemleri İle Tespit Edilmesi,» Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, cilt 25, no. 1, pp. 591-608, 2020.
  • B. K. Ülkü, «Panoramik Radyografi Görüntülerinde Maksiller Ve Mandibular Yapıların Sınırlarının Belirlenmesi için Yarı Gözetimli bir Metot,» TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü Yüksek Lisans Tezi, 2019.
  • J. Han, M. Kamber ve J. Pei, Data Mining Concepts and Techniques, USA: Morgan Kaufmann, 2012.
  • S. R. Hashemi, S. S. M. Salehi ve D. Erdogmus, «Tversky as a Loss Function for Highly Unbalanced Image Segmentation using 3D Fully Convolutional Deep Networks,» 2018.
  • I. Zarembo, A. Teilans, A. Rausis ve J. Buls, «Assessment of Name Based Algorithms for Land Administration Ontology Matching,» Procedia Computer Science, cilt 43, pp. 53-61, 2015.
  • G. Recchia ve M. Louwerse, «A Comparison of String Similarity Measures for Toponym Matching,» ResearchGate, 2013.
  • I. Ilyankou, «Comparison of Jaro-Winkler and Ratcliff/Obershelp algorithms in spell check,» IB Extended Essay Computer Science, 2014.
  • Olufade, F. W. Onifade, M. IAENG ve O. Thiéry, «Dynamic Fuzzy String-Matching Model for Information Retrieval Based on Incongruous User Queries,» Proceedings of the World Congress on Engineering, cilt 1, 2010.
  • «developers.google.com,» google, [Çevrimiçi]. Available: https://developers.google.com/maps/documentation/places/web-service/overview. [Erişildi: 12 September 2021].
  • «geopy,» pypi.org, [Çevrimiçi]. Available: https://pypi.org/project/geopy/. [Erişildi: 21 July 2021].
There are 28 citations in total.

Details

Primary Language Turkish
Subjects Engineering
Journal Section Makaleler(Araştırma)
Authors

Ünzüle Keleş 0000-0001-9539-6981

Nevcihan Duru 0000-0003-2154-7067

Project Number 3192318
Publication Date December 22, 2021
Published in Issue Year 2021 Volume: 14 Issue: 2

Cite

APA Keleş, Ü., & Duru, N. (2021). Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, 14(2), 86-98. https://doi.org/10.54525/tbbmd.998983
AMA Keleş Ü, Duru N. Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama. TBV-BBMD. December 2021;14(2):86-98. doi:10.54525/tbbmd.998983
Chicago Keleş, Ünzüle, and Nevcihan Duru. “Metin Benzerliği Algoritmaları Ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi 14, no. 2 (December 2021): 86-98. https://doi.org/10.54525/tbbmd.998983.
EndNote Keleş Ü, Duru N (December 1, 2021) Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 14 2 86–98.
IEEE Ü. Keleş and N. Duru, “Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama”, TBV-BBMD, vol. 14, no. 2, pp. 86–98, 2021, doi: 10.54525/tbbmd.998983.
ISNAD Keleş, Ünzüle - Duru, Nevcihan. “Metin Benzerliği Algoritmaları Ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi 14/2 (December 2021), 86-98. https://doi.org/10.54525/tbbmd.998983.
JAMA Keleş Ü, Duru N. Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama. TBV-BBMD. 2021;14:86–98.
MLA Keleş, Ünzüle and Nevcihan Duru. “Metin Benzerliği Algoritmaları Ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri Ve Mühendisliği Dergisi, vol. 14, no. 2, 2021, pp. 86-98, doi:10.54525/tbbmd.998983.
Vancouver Keleş Ü, Duru N. Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama. TBV-BBMD. 2021;14(2):86-98.

Article Acceptance

Use user registration/login to upload articles online.

The acceptance process of the articles sent to the journal consists of the following stages:

1. Each submitted article is sent to at least two referees at the first stage.

2. Referee appointments are made by the journal editors. There are approximately 200 referees in the referee pool of the journal and these referees are classified according to their areas of interest. Each referee is sent an article on the subject he is interested in. The selection of the arbitrator is done in a way that does not cause any conflict of interest.

3. In the articles sent to the referees, the names of the authors are closed.

4. Referees are explained how to evaluate an article and are asked to fill in the evaluation form shown below.

5. The articles in which two referees give positive opinion are subjected to similarity review by the editors. The similarity in the articles is expected to be less than 25%.

6. A paper that has passed all stages is reviewed by the editor in terms of language and presentation, and necessary corrections and improvements are made. If necessary, the authors are notified of the situation.

0

.   This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.