Evaluation Of Various Machine Learning Techniques And Pre- Trained Language Models For Improving Low-Resource Cross-Lingual Tasks

Seiring dengan berbagai kemajuan teknologi yang mendukung perkembangan machine learning, khususnya di bidang natural language processing (NLP), penelitian yang berfokus pada bahasa di negara-negara yang menggunakan bahasa selain bahasa Inggris semakin banyak, salah satunya Bahasa Indonesia. Bahasa Indonesia merupakan salah satu bahasa yang paling banyak digunakan di internet saat ini, namun jika dibandingkan dengan bahasa-bahasa lain yang populer, seperti bahasa Inggris, Mandarin, dan Jerman, penelitian terkait pemanfaatan machine learning untuk pemrosesan Bahasa Indonesia masih terhitung sedikit. Salah satu penyebabnya adalah kebutuhan data yang sangat besar dibutuhkan oleh mesin agar dapat mempelajari pola bahasa. Belakangan ini, cukup banyak peneliti nusantara yang berkontribusi untuk menyediakan model-model atau corpus berbahasa Indonesia, namun masih banyak yang bersifat monolinguistik, hanya berfokus pada satu bahasa saja. Penelitian ini bertujuan untuk menganalisis, mengevaluasi, dan membandingkan beberapa metode machine learning dan NLP yang dapat digunakan untuk membangun model cross-lingual untuk mengerjakan tugas-tugas spesifik dalam lingkungan yang low-resource, baik dari segi data maupun computing power. Berdasarkan hasil comparative evaluation tersebut, penelitian ini akan mengimplementasikan metode-metode yang paling sesuai untuk membangun model yang dapat menyelesaikan masalah yang bersifat cross-lingual dalam bidang NLP, dan mempublikasikan hasil konfigurasi
dan performanya agar dapat memberikan kontribusi ke komunitas peneliti, industri, dan masyarakat luas. Penelitian ini ditargetkan selesai dalam 12 bulan, dengan luaran berupa publikasi ke jurnal internasional dan juga publikasi model machine learning beserta konfigurasinya.