Posted on Dec. 5, 2022, 1:07 a.m.

Tokopedia UI AI Center of Excellence kembali menggelar acara AI Talk Series dengan tema “Improving BERT-based Model in Low Resource Settings with Cross-lingual Data Augmentation Strategies” yang menghadirkan Ryan Pramana, M.Kom. sebagai pembicara utama (28/10/2022). Kegiatan ini berlangsung secara daring melalui platform Zoom dan dimulai dengan sambutan Bapak Fariz Darari, Ph.D selaku Co-Direktur Tokopedia-UI Artificial Intelligence Center of Excellence dan penjelasan profil singkat tentang pembicara. Tujuan diselenggarakan dari acara ini adalah memberikan pemahaman terkait implementasi BERT untuk augmentasi data yang bersifat cross-lingual dan low resources/bahasa lain yang corpusnya relatif terbatas.

Sesi talk series ini diawali dengan membahas machine learning comprehension (MRC) secara umum seperti definisi, contoh implementasi di dunia nyata, dan cara membuat high-performance MRC dengan memanfaatkan arsitektur BERT. Alasan menggunakan BERT adalah 1) memberikan embedding yang lebih robust dan terkonsep, 2) relatif lebih cepat untuk dilakukan training dibandingkan dengan model sekuensial yang lain (contohnya: RNN, LSTM, dll), 3) mudah dikembangkan dengan cara fine-tuning, 4) pretrained-model yang bisa diakses secara terbuka, dsb. Untuk pemanfaatan BERT untuk membuat MRC dari bahasa lain juga masih menemui beberapa permasalahan seperti 1) inkonsistensi struktur saat pretraining, 2) instabilitas saat fine-tuning dengan data kecil, dsb. Maka dari itu, Ryan Pramana mengusulkan untuk menggunakan augmentasi data pada riset MRC yang dikerjakan olehnya.

Augmentasi data yang diusulkan bersifat cross-lingual dengan skema translated data dan perturbation code-switching. Dari hasil riset tersebut, performa yang dihasilkan bersifat konsisten melampaui dari baseline yang telah dibuat (2-step fine-tuning > kombinasi antardata > baseline).

Setelah sesi materi selesai, para partisipan dipersilakan untuk mengajukan pertanyaan dan disambut secara antusias.

Slides: https://s.id/MateriCrossLingualAITalk
Recording: https://s.id/VideoCrossLingualAITalk

Talk Series