Pembelajaran mesin tradisional beroperasi dalam paradigma di mana komputer, yang mahir dalam komputasi numerik, belajar menggunakan data numerik dan memperoleh parameter terkuantifikasi.
Namun, manusia mampu belajar tidak hanya melalui mekanisme numerik tetapi juga melalui bahasa. Kita mengorganisir dan mencatat pengalaman dalam kata-kata, lalu mengingat, membaca, dan memanfaatkan kata-kata tersebut.
Model Bahasa Besar (LLM) juga dapat mendeskripsikan pengetahuan dalam kata-kata dan memanfaatkan pengetahuan dengan membaca kata-kata.
Dengan memanfaatkan LLM sebagai prosesor bahasa alami, pembelajaran mesin berbasis bahasa alami menjadi mungkin, alih-alih hanya pembelajaran mesin berbasis numerik.
Karena alasan ini, kemunculan LLM telah membuka bidang baru: pembelajaran mesin bahasa alami.
Pra-pelatihan LLM adalah bentuk pembelajaran mesin numerik tradisional. Pembelajaran mesin bahasa alami yang dibahas di sini mengacu pada jenis pembelajaran mesin baru yang memanfaatkan LLM yang sudah dilatih sebelumnya.
Model Dasar Pembelajaran Mesin Bahasa Alami
Pembelajaran mesin bahasa alami memiliki aspek-aspek yang mirip dengan pembelajaran mesin numerik konvensional, serta aspek-aspek yang sama sekali berbeda.
Untuk memahami konsep pembelajaran mesin bahasa alami terlebih dahulu, mari kita jelaskan model dasar yang berfokus pada bagian-bagian yang menyerupai pembelajaran mesin numerik tradisional.
Mulai sekarang, Model Bahasa Besar yang sudah dilatih sebelumnya akan disebut sebagai LLM. Perhatikan bahwa parameter LLM tidak berubah sama sekali selama proses pembelajaran ini.
Model dasar ini adalah model pembelajaran terawasi, yang menargetkan masalah klasifikasi.
Untuk data pembelajaran, beberapa pasang kalimat masukan dan klasifikasinya disiapkan sebagai jawaban yang benar.
Misalnya, katakanlah sebuah perusahaan memiliki Departemen Urusan Umum dan Departemen Urusan Administrasi.
Kedua departemen ini memiliki peran yang berbeda. Untuk kalimat masukan seperti "Lampu kantor mati," "Saya lupa kartu akses saya," atau "Saya ingin memesan aula utama di kantor pusat," klasifikasi menunjukkan departemen mana, Urusan Umum atau Urusan Administrasi, yang bertanggung jawab.
Dari data pelatihan ini, hanya kalimat masukan yang diekstrak dan dimasukkan ke LLM.
Di sini, kami sengaja membatasi respons melalui system prompt seperti, "Harap sebutkan apakah departemen yang bertanggung jawab atas pertanyaan ini adalah Urusan Umum atau Urusan Administrasi. Jangan menyertakan karakter selain 'Urusan Umum' atau 'Urusan Administrasi' dalam jawaban Anda."
Awalnya, LLM menghasilkan respons tanpa pengetahuan tentang perusahaan ini. Tentu saja, itu mungkin salah, atau kadang-kadang benar secara kebetulan.
Untuk setiap respons, sistem pengajar menentukan apakah itu benar atau salah. Kemudian, kombinasi kalimat masukan, respons LLM, dan hasil penilaian disimpan ke basis pengetahuan.
Proses ini diulang untuk sekitar separuh dari data pelatihan.
Untuk separuh data pelatihan yang tersisa, semua informasi yang dicatat dalam basis pengetahuan ditambahkan ke system prompt untuk LLM, dan proses yang sama dilakukan.
Pada titik ini, basis pengetahuan berisi informasi tentang pembagian tugas antara departemen Urusan Umum dan Urusan Administrasi perusahaan ini, sehingga kemungkinan jawaban yang benar seharusnya lebih tinggi daripada separuh data yang pertama.
Dengan cara ini, sistem yang menggabungkan LLM dan basis pengetahuan dapat mempelajari pembagian tugas untuk departemen Urusan Umum dan Urusan Administrasi suatu perusahaan.
Mekanisme pembelajarannya sendiri mirip dengan pembelajaran mesin numerik tradisional. Perbedaannya adalah hasil pembelajaran tercermin dalam basis pengetahuan, bukan pada parameter jaringan saraf di dalam LLM. Selanjutnya, basis pengetahuan mencatat bahasa alami, bukan nilai numerik.
Ini adalah model dasar pembelajaran mesin bahasa alami.
Realitas Model Dasar
Seperti yang akan segera disadari oleh mereka yang memanfaatkan LLM, model dasar ini kurang realistis.
Ini karena tidak perlu repot-repot menggunakan sistem pengajar untuk menentukan penilaian benar/salah; seseorang bisa saja langsung memasukkan data pelatihan itu sendiri ke dalam system prompt sejak awal.
Namun, dengan menerapkan model dasar dan sedikit mengubah skenario, model ini menjadi lebih realistis.
Misalnya, bayangkan Departemen Urusan Umum dan Departemen Urusan Administrasi bersama-sama membuat meja pertanyaan, dan seorang manusia secara manual menetapkan setiap pertanyaan yang masuk ke departemen yang sesuai.
Sistem sederhana dibangun untuk menambahkan pertanyaan-pertanyaan ini dan hasil penugasannya ke basis pengetahuan.
Kemudian, menggunakan basis pengetahuan ini, LLM dapat mengambil alih dari manusia dan menetapkan pertanyaan-pertanyaan baru ke departemen.
Dalam kasus ini, jika LLM salah menetapkan pertanyaan yang seharusnya untuk Urusan Administrasi ke Urusan Umum, staf Urusan Umum akan menetapkan ulang pertanyaan tersebut kembali ke Urusan Administrasi. Informasi penetapan ulang ini juga dicatat dalam basis pengetahuan.
Mekanisme sederhana untuk mencatat log penugasan ini, dikombinasikan dengan LLM dan basis pengetahuan, akan menjadi model pembelajaran mesin bahasa alami terawasi yang realistis.
Poin utamanya di sini, sekali lagi, adalah bahwa parameter jaringan saraf di dalam LLM sama sekali tidak berubah. Terlebih lagi, hasil pembelajaran umpan balik adalah kumpulan kalimat bahasa alami, bukan nilai numerik.
Dan, tanpa diragukan lagi, sistem ini melibatkan pembelajaran mesin, bukan pembelajaran manusia.
Oleh karena itu, ini adalah bentuk baru dari pembelajaran mesin: pembelajaran mesin bahasa alami.
Keunggulan Pembelajaran Mesin Bahasa Alami
Berbeda dengan pembelajaran mesin numerik, pembelajaran bahasa alami menawarkan banyak keuntungan.
Singkatnya, karakteristik utamanya adalah efisiensi pembelajaran yang sangat tinggi.
Pembelajaran mesin numerik umumnya membutuhkan data pelatihan dalam jumlah besar dan pembelajaran iteratif. Selain itu, pra-pemrosesan data pelatihan juga diperlukan.
Data pelatihan dalam jumlah besar dibutuhkan karena fitur-fitur yang akan dipelajari tidak terkandung dalam satu bagian data saja, melainkan tersebar di antara sejumlah besar data.
Untuk alasan ini, data pelatihan yang dibutuhkan setidaknya berorde kuadrat dari dimensionalitas fitur yang benar-benar diinginkan.
Pembelajaran iteratif diperlukan untuk memastikan bahwa parameter jaringan saraf dipelajari dengan tepat tanpa terjebak dalam minimum lokal, yang membutuhkan perubahan parameter yang kecil pada setiap umpan balik.
Pra-pemrosesan data pelatihan, seperti normalisasi dan ekstraksi tepi, diperlukan untuk menonjolkan fitur-fitur yang benar-benar diinginkan. Pra-pemrosesan ini juga menuntut upaya yang signifikan.
Sebagai contoh, jika pembagian tugas antara Departemen Urusan Administrasi dan Departemen Urusan Umum akan dipelajari menggunakan jaringan saraf tradisional, dan fiturnya adalah 50 dimensi, setidaknya sekitar 1.000 atau lebih instans data pelatihan akan diperlukan. Selain itu, 1.000+ instans data ini mungkin perlu dipelajari secara iteratif sekitar 100 kali untuk mencapai akurasi pembelajaran yang sesuai.
Selanjutnya, jika kumpulan 1.000 instans data pelatihan ini berisi kata-kata yang tidak relevan, variasi ejaan, atau berbagai urutan kata dan struktur kalimat, efisiensi pembelajaran akan menurun, dan fitur-fitur yang tidak terkait dapat dipelajari.
Oleh karena itu, pra-pemrosesan untuk menghapus kata-kata yang tidak relevan, menstandarkan terminologi untuk menghilangkan variasi, dan menyatukan urutan kata serta sintaksis sangatlah diperlukan.
Sebaliknya, pembelajaran mesin bahasa alami membutuhkan data pelatihan yang lebih sedikit, tidak ada iterasi dengan data pelatihan yang sama, dan seringkali tidak memerlukan pra-pemrosesan.
Jika fitur-fitur untuk pembagian tugas antara Departemen Urusan Administrasi dan Departemen Urusan Umum adalah 50 dimensi, 50 informasi yang sesuai dengan setiap dimensi sudah cukup.
Terlebih lagi, ini tidak berarti bahwa 50 kalimat terpisah diperlukan.
Satu kalimat seperti "Tugas terkait A, B, C, dan D ditangani oleh Departemen Urusan Administrasi" dapat mencakup empat dimensi informasi.
Selanjutnya, dengan mengabstraksi bahasa, informasi dari berbagai dimensi dapat diagregasikan. Sebuah kalimat seperti "Pemeliharaan bahan habis pakai dan fasilitas gedung adalah tanggung jawab Departemen Urusan Administrasi" mengagregasikan berbagai informasi dimensional, termasuk penggantian bola lampu dan kerusakan pintu otomatis.
Abstraksi ini dapat dikatakan mengurangi data pelatihan dengan memanfaatkan pengetahuan yang telah dilatih sebelumnya dan kemampuan penalaran LLM.
Dan, pada dasarnya, pembelajaran bahasa alami tidak memerlukan pembelajaran iteratif. Setelah kalimat yang disebutkan di atas ditambahkan ke basis pengetahuan, pembelajaran selesai.
Selain itu, pra-pemrosesan pengetahuan juga tidak diperlukan. Bahkan jika penjelasan tentang Departemen Urusan Administrasi atau Departemen Urusan Umum tercampur dalam berbagai teks, mereka masih dapat dimanfaatkan sebagai pengetahuan.
Atau, seperti contoh sebelumnya, data mentah seperti catatan pertanyaan dan penugasan dapat langsung digunakan sebagai data pelatihan tanpa pra-pemrosesan.
Dengan demikian, pembelajaran mesin bahasa alami dapat belajar jauh lebih efisien daripada pembelajaran mesin numerik.
Kesimpulan
Dibandingkan dengan kemampuan komputasi numerik kecepatan tinggi pada komputer, kemampuan pemrosesan bahasa alami dari model bahasa besar cenderung lambat.
Namun, pembelajaran mesin bahasa alami memungkinkan pembelajaran yang efisien, jauh melampaui kesenjangan antara komputasi numerik kecepatan tinggi dan pemrosesan bahasa alami yang lambat.
Selain itu, model bahasa besar, yang telah mencapai kemajuan luar biasa melalui pembelajaran numerik, tampaknya mendekati batas peningkatan kinerja melalui peningkatan skala sederhana, sesuai dengan hukum skala.
Dalam skenario seperti itu, sangat mungkin fokus akan bergeser ke peningkatan kemampuan melalui pembelajaran mesin bahasa alami.