Klasifikasi Berita Bahasa Indonesia Dengan Arsitektur Long-Short Term Memory

Klasifikasi kategori suatu data teks memiliki tujuan untuk mempermudah manusia untuk mengkategorikan sebuah data dalam kategori tertentu. Pada penelitian ini, klasfikasi berita digital akan mempermudah editor dalam menentukan berita tersebut masuk pada kategori tertentu. Proses mengklasifikasi data teks tidak dapat dilakukan oleh machine learning karena sebuah model machine learning hanya dapat menerima masukan berupa nilai numerik. Dengan adanya keterbatasan tersebut, maka kumpulan data teks harus ditransformasi dengan menerapkan Natural Language Processing (NLP) yang mempersiapkan data agar dapat diproses. NLP menjadi kunci agar sebuah model dapat mempelajari data latih dengan optimal supaya hasil prediksi akurat. Metode untuk melakukan prediksi dengan menerapkan LSTM-RNN merupakan kombinasi terbaik dalam memprediksi suatu kumpulan kata yang banyak Pada penelitan terdahulu, penggunaan metode LSTM-RNN memiliki tingkat akurasi yang tinggi untuk klasifikasi berita dalam bahasa inggris. Untuk eksplorasi lebih lanjut, maka pada penelitian ini menggunakan berita berbahasa Indonesia yang diambil dari Jakartaresearch dan web scraping pada Kompas.com yang menjadi data latih dan data testing. Berdasarkan hasil eksperimen untuk model LSTM-RNN berhasil mendapatkan nilai akurasi sebesar 93%, nilai recall sebesar 91.8%, nilai presisi sebesar 92.4% dan nilai F1-Score sebesar 91.8%. Nilai akurasi prediksi dengan menggunakan 17 data berita dari Detik.com menunjukan 100% akurat memprediksi kategori berita tersebut.