REVIEW AND VISUALIZATION OF FACEBOOK'S FASTTEXT PRETRAINED WORD VECTOR MODEL

Word2Vec merupakan salah satu model pemelajaran mesin yang sangat populer untuk digunakan dalam pengolahan bahasa natural. Serupa dengan model-model pemelajaran mesin lainnya, terdapat beberapa isu terkait dengan aspek interpretabilitas dari model ini. Dalam penelitian ini, dilakukan proses pengkajian dan analisa terkait dengan salah satu model Word2Vec untuk kasus Bahasa Indonesia yang dikembangkan oleh Facebook yakni FastText. Proses analisa mula-mula dilakukan dengan membandingkan kata-kata yang terkandung di dalam model dan Kamus Besar Bahasa Indonesia (KBBI). Kemudian, proses analisa dilanjutkan dengan memvisualisasikan nilai-nilai vektor dari sebagian kata yang dimiliki model menggunakan algoritma Principal Component Analysis (PCA) dan t-Distributed Stochastic Neighbor Embedding (t-SNE). Melalui analisa yang telah dilakukan, dalam penelitian ini dijabarkan beberapa hal yang patut dipertimbangkan saat menggunakan model FastText untuk mengolah Bahasa Indonesia seperti apakah metode preprocessing yang
umumnya digunakan dalam pengolahan bahasa natural masih diperlukan dalam pendekatan pemelajaran mesin.