Implementasi Word2Vec Dan Support Vector Machine Pada Analisis Sentimen Terhadap Cyberbullying

Depresi dan kecemasan sosial merupakan dua dampak negatif utama dari perundungan siber dalam kesehatan mental. Sayangnya, jajak pendapak yang dilakukan oleh UNICEF pada 3 September 2019 menunjukkan bahwa 1 dari 3 orang muda di 30 negara pernah menjadi korban perundungan siber. Penelitian analisis sentimen akan dilakukan untuk mendeteksi suatu komentar yang mengandung perundungan siber. Kumpulan data perundungan siber didapat
dari laman Kaggle, yaitu Toxic Comment Classification Challenge. Proses pra-pemrosesan terdiri dari 4 tahap, yaitu generalisasi komentar (mengubah teks menjadi huruf kecil dan menghapus tanda baca), tokenisasi, penghapusan stopwords, dan pengubahan kata ke bentuk dasar (lemmatization). Metode Word Embedding akan digunakan untuk melakukan analisis sentimen dengan mengimplementasikan Word2Vec. Lalu, metode One-Against-All dengan model (OAA) Support Vector Machine (SVM) akan digunakan untuk melakukan prediksi dalam bentuk banyak label. Model SVM akan melalui proses hyperparameter tuning menggunakan fungsi Randomized Search CV. Kemudian, evaluasi prediksi akan dilakukan dengan menggunakan Micro Averaged F1 Score untuk mengetahui keakuratan prediksi dan
menggunakan Hamming Loss untuk mengetahui banyaknya pasangan sampel – label salah diklasifikasikan. Hasil implementasi dari model Word2Vec dan OAA SVM memberikan hasil terbaik terhadap data yang melalui proses pra-pemrosesan generalisasi komentar, tokenisasi, penghapusan stopwords, dan lemmatization dan disimpan sebanyak 100 fitur pada model Word2Vec. Persentase Micro Averaged F1 Score yang dihasilkan sebesar 83.40% dan
persentase Hamming Lossyang dihasilkan sebesar 15.13%.