Deteksi Kemiripan Dokumen Menggunakan Cosine Similarity Berdasarkan Representasi Teks Count Vectorizer Dan TF IDF

Musthofa Galih Pradana; Nindy Irzavika; Nurhuda Maulana

doi:10.21927/ijubi.v7i2.5170

Musthofa Galih Pradana, Nindy Irzavika, Nurhuda Maulana

https://doi.org/10.21927/ijubi.v7i2.5170

Issue
Vol. 7 No. 2 (2024): Indonesian Journal of Business Intelligence (IJUBI)

Submitted
2 January 2025

Accepted
14 January 2025

Published
31 December 2024

PDF Untitled (Bahasa Indonesia)

Abstract

Tujuan mata kuliah skripsi atau tugas akhir menumbuhkan budaya berpikir kritis, dan menunjukan kemampuan untuk memecahkan permasalahan dengan konstruksi logis dari penelitian. Akan tetapi, dari banyaknya manfaat tersebut, ada beberapa permasalahan yang juga muncul dikarenakan mata kuliah ini. Plagiarisme adalah masalah umum. Mengambil karya orang lain, termasuk pendapat mereka sendiri, dan membuatnya seperti karya sendiri adalah plagiarisme. Langkah pertama dalam penggunaan teknologi adalah mendeteksi kesamaan dokumen sejak dini. Dalam hal ini, dokumen yang harus dikumpulkan oleh mahasiswa selama proses pengajuan judul skripsi mereka adalah abstrak. Ketika digunakan, algoritma cosine similarity adalah algoritma yang efisien secara komputasi karena sangat mudah dipahami dan dapat digunakan dengan data berskala besar. Penelitian ini dilakukan dengan dua pendekatan representasi teks yaitu dengan menggunakan TF-IDF dan Count Vectorizer. Data korpus yang digunakan dalam penelitian ini adalah 1600 data dokumen abstrak skripsi mahasiswa, dengan pengujian menggunakan 30 data untuk melihat kinerja algoritma cosine similarity dalam mendeteksi kesamaan dokumen abstrak. Hasil penelitian menunjukkan bahwa pendekatan representasi teks TF-IDF mendapatkan kesamaan di angka 7,72861 dan Count Vectorizer mendapatkan hasil di angka 16,85541 atau punya gap sebesar 9,1268 dengan keunggulan Count Vectorizer. Hal ini disebabkan Count Vectorizer menghitung frekuensi kata tanpa mempertimbangkan apakah kata tersebut umum atau jarang, sehingga kata-kata umum tetap berkontribusi penuh terhadap similarity.

References

[1] Pemerintah Indonesia, â€œUndang-Undang Nomor 4 Tahun 2014 Tentang Penyelenggaraan Pendidikan Tinggi dan Pengelolaan Perguruan Tinggi,â€ Standar Nasional Pendidikan, p. 37, 2014, [Online]. Available: https://peraturan.bpk.go.id/Home/Details/5441/pp-no-4-tahun-2014
[2] Kementerian Pendidikan dan Kebudayaan, Permendikbud Nomor 3 Tahun 2020. www.kemdikbud.go.id, 2020.
[3] A. Kleebayoon and V. Wiwanitkit, â€œArtificial Intelligence, Chatbots, Plagiarism and Basic Honesty: Comment,â€ Cell Mol Bioeng, vol. 16, no. 2, pp. 173â€“174, Apr. 2023, doi: 10.1007/s12195-023-00759-x.
[4] V. Chandere, S. Satish, and R. Lakshminarayanan, â€œOnline plagiarism detection tools in the digital age: A review,â€ Ann Rom Soc Cell Biol, vol. 25, no. 1, pp. 7110â€“7119, 2021, [Online]. Available: https://annalsofrscb.ro/index.php/journal/article/view/881
[5] K. W. G. A. P. P. H. S. D. P. W. D. H. R. S. K. N. M. A. P. P. Musthofa Galih Pradana, Information Retrieval. Penamuda, 2024.
[6] A. Kulkarni and A. Shivananda, Natural Language Processing Recipes. 2021. doi: 10.1007/978-1-4842-7351-7.
[7] Raymond S. T. Lee, Natural Language Processing: A Textbook with Python Implementation. Springer, 2023.
[8] Thushan Ganegedara, Natural Language Processing with TensorFlow - Second Edition. Packt Publishing, 2022.
[9] J. Wang and Y. Dong, â€œMeasurement of text similarity: A survey,â€ Information (Switzerland), vol. 11, no. 9, pp. 1â€“17, 2020, doi: 10.3390/info11090421.
[10] M. M. Danyal, S. S. Khan, M. Khan, S. Ullah, M. B. Ghaffar, and W. Khan, â€œSentiment analysis of movie reviews based on NB approaches using TFâ€“IDF and count vectorizer,â€ Soc Netw Anal Min, vol. 14, no. 1, p. 87, Apr. 2024, doi: 10.1007/s13278-024-01250-9.
[11] A. Wendland, M. Zenere, and J. Niemann, â€œIntroduction to Text Classification: Impact of Stemming and Comparing TF-IDF and Count Vectorization as Feature Extraction Technique,â€ 2021, pp. 289â€“300. doi: 10.1007/978-3-030-85521-5_19.
[12] G. M. Raza, Z. S. Butt, S. Latif, and A. Wahid, â€œSentiment Analysis on COVID Tweets: An Experimental Analysis on the Impact of Count Vectorizer and TF-IDF on Sentiment Predictions using Deep Learning Models,â€ in 2021 International Conference on Digital Futures and Transformative Technologies (ICoDT2), IEEE, May 2021, pp. 1â€“6. doi: 10.1109/ICoDT252288.2021.9441508.
[13] K. M. Suryaningrum, â€œComparison of the TF-IDF Method with the Count Vectorizer to Classify Hate Speech,â€ Engineering, MAthematics and Computer Science (EMACS) Journal, vol. 5, no. 2, pp. 79â€“83, May 2023, doi: 10.21512/emacsjournal.v5i2.9978.
[14] T. Ahmed, S. F. Mukta, T. Al Mahmud, S. Al Hasan, and M. Gulzar Hussain, â€œBangla Text Emotion Classification using LR, MNB and MLP with TF-IDF & CountVectorizer,â€ in 2022 26th International Computer Science and Engineering Conference (ICSEC), IEEE, Dec. 2022, pp. 275â€“280. doi: 10.1109/ICSEC56337.2022.10049341.
[15] H. D. Abubakar and M. Umar, â€œSentiment Classification: Review of Text Vectorization Methods: Bag of Words, Tf-Idf, Word2vec and Doc2vec,â€ SLU Journal of Science and Technology, vol. 4, no. 1 & 2, pp. 27â€“33, Aug. 2022, doi: 10.56471/slujst.v4i.266.
[16] A. Gupta and U. Sharma, â€œMachine Learning Based Aspect Category Detection for Hindi Data Using TF-IDF and Count Vectorization,â€ in 2024 2nd International Conference on Device Intelligence, Computing and Communication Technologies (DICCT), IEEE, Mar. 2024, pp. 39â€“44. doi: 10.1109/DICCT61038.2024.10532960.
[17] M. Singhal, N. Singhal, S. Khera, A. Upmanyu, and P. Nagrath, â€œImprovisation of Reddit flair detection using TF-IDF and countvectorizer,â€ 2023, p. 020003. doi: 10.1063/5.0181369.
[18] Sajid Khan, Mehmoon Anwar, Huma Qayyum, Farooq Ali, and Marriam Nawaz, â€œFake News Classification using Machine Learning: Count Vectorizer and Support Vector Machine,â€ Journal of Computing & Biomedical Informatics, vol. 4, no. 01, Jan. 2023, doi: 10.56979/401/2022/85.

Authors

Musthofa Galih Pradana

Universitas Pembangunan Nasional Veteran Jakarta, Indonesia

mgalihpradana@gmail.com (Primary Contact)

Nindy Irzavika

Universitas Pembangunan Nasional Veteran Jakarta, Indonesia

Nurhuda Maulana

Universitas Pembangunan Nasional Veteran Jakarta, Indonesia

Copyright and license info is not available

Article Sidebar

Abstract

References

Authors

Article Details