Posted on June 7, 2023, 2:47 a.m.

Tokopedia-UI AI Center of Excellence menggelar acara AI Talk Series berikutnya dengan tema “Multilingual and Low-Resource NLP” yang menghadirkan Alham Fikri Aji, Ph.D. selaku Assistant Professor di departemen NLP MBZUAI sebagai pembicara utama (25/05/2023). Beliau merupakan peneliti pada bidang NLP, khususnya pada aspek multilingual dan low-resource languages.

Adapun kegiatan ini berlangsung secara daring melalui platform Zoom dan dimulai dengan sambutan Bapak Adila Alfa Krisnadhi, Ph.D selaku Co-Direktur Tokopedia-UI Artificial Intelligence Center of Excellence dan penjelasan profil singkat tentang pembicara. Tujuan diselenggarakan dari acara ini adalah memberikan pemahaman terkait apa itu multilingual NLP dan low-resource NLP serta perkembangannya di bidang penelitian.

Sesi materi diawali dengan latar belakang perkembangan AI di bidang NLP yang semakin berkembang, seperti ChatGPT yang acap kali menjadi bahan perbincangan karena kemampuannya yang dapat menghasilkan copywriting yang menyerupai manusia. Namun kemampuannya masih dibatasi oleh bahasa, misalnya kemampuan teknologi AI bidang NLP untuk bahasa inggris masih lebih baik dibandingkan dengan bahasa jepang atau bahkan bahasa jawa. Adapun ditampilkan statistik sebaran jumlah bahasa yang di dunia dan riset NLP yang menggunakan bahasa low-resource yang menunjukkan bahwa masih kurangnya perkembangan teknologi NLP berbasis AI yang menggunakan bahasa selain inggris padahal tujuan dari pengembangan ini sendiri adalah mengurangi barier bahasa bagi manusia. Keterbatasan pengembangan ini juga diakibatkan dari ketersediaan data yang relatif sedikit untuk bahasa low-resource serta memerlukan biaya yang relatif besar dan beberapa bahasa hanya dimengerti oleh beberapa orang ahli.

Maka dari itu, ada beberapa pendekatan yang digunakan untuk membuat model NLP dengan data low-resource yaitu 1) Translate-test and Translate-train, 2) Transfer-learning, 3) (Multilingual) Pre-trained Language Model, 4) Zero-shot Multilingual Generalization, 5) Multilingual, Multitask Generalization. Dari kelima strategi tersebut, model AI untuk NLP dengan low-resource dapat menghasilkan solusi yang lebih tepat dan digunakan untuk menyelesaikan beberapa task yang berbeda pada domain NLP. Namun, permasalahan lain yang muncul adalah perbedaan kultur, gaya, dialek, dan percampuran dengan beberapa bahasa lain dalam satu kalimat (code-mixing). Isu tersebut membutuhkan adanya resource building dalam hal data guna meningkatkan cakupan bahasa pada kultur dan dialek yang lebih beragam.

Setelah sesi materi selesai, para peserta dipersilakan untuk mengajukan pertanyaan dan disambut secara antusias.

Tautan:

Slides: https://s.id/MateriLowResourceNLPAITalk
Recording: https://youtu.be/MQBN48AuShE

Natural Language Processing Talk Series