Lewati ke Konten
Artikel ini telah diterjemahkan dari bahasa Jepang menggunakan AI
Baca dalam bahasa Jepang
Artikel ini berada dalam Domain Publik (CC0). Silakan gunakan secara bebas. CC0 1.0 Universal

Pembelajaran Mesin Bahasa Alami

Pembelajaran mesin tradisional beroperasi dalam paradigma di mana komputer, yang mahir dalam komputasi numerik, belajar dari data numerik dan memperoleh parameter numerik.

Di sisi lain, kita mampu belajar tidak hanya melalui mekanisme numerik tetapi juga melalui bahasa. Kita mengorganisir dan merekam pengalaman sebagai kata-kata, kemudian mengingat atau membaca kata-kata tersebut untuk memanfaatkannya.

Model bahasa besar juga dapat menjelaskan pengetahuan menggunakan kata-kata dan memanfaatkan kata-kata dengan membacanya.

Dengan memanfaatkan model bahasa besar, yang merupakan pemroses bahasa alami, pembelajaran mesin berbasis bahasa alami menjadi mungkin, alih-alih hanya pembelajaran mesin berbasis numerik.

Akibatnya, kemunculan model bahasa besar telah membuka bidang baru: pembelajaran mesin bahasa alami.

Pra-pelatihan model bahasa besar adalah pembelajaran mesin numerik tradisional. Pembelajaran mesin bahasa alami yang dijelaskan di sini mengacu pada bentuk baru pembelajaran mesin yang memanfaatkan model bahasa besar yang telah dilatih sebelumnya.

Model Dasar Pembelajaran Mesin Bahasa Alami

Pembelajaran mesin bahasa alami memiliki aspek yang mirip dengan, dan sama sekali berbeda dari, pembelajaran mesin numerik tradisional.

Pertama, untuk mendapatkan gambaran tentang pembelajaran mesin bahasa alami, kami akan menjelaskan bagian-bagian yang mirip dengan pembelajaran mesin numerik tradisional sebagai model dasar.

Mulai sekarang, kami akan menyebut model bahasa besar yang telah dilatih sebelumnya sebagai LLM. Harap dicatat bahwa parameter LLM tidak berubah sama sekali selama proses pembelajaran ini.

Model dasar adalah pembelajaran terbimbing, yang menargetkan masalah klasifikasi.

Beberapa pasang kalimat masukan dan klasifikasinya disiapkan sebagai jawaban yang benar untuk data pelatihan.

Misalnya, katakanlah sebuah perusahaan memiliki Departemen Urusan Umum dan Departemen Urusan Administrasi.

Kedua departemen ini memiliki pembagian tugas. Untuk kalimat masukan seperti "Lampu kantor mati," "Saya lupa kartu akses saya," atau "Saya ingin memesan aula utama di kantor pusat," klasifikasi menunjukkan apakah Departemen Urusan Umum atau Departemen Urusan Administrasi yang bertanggung jawab.

Dari data pelatihan ini, hanya kalimat masukan yang diekstrak dan dimasukkan ke dalam LLM.

Di sini, sebagai system prompt, kami sengaja membatasi jawaban dengan menyatakan, "Harap jawab departemen mana, Urusan Umum atau Urusan Administrasi, yang bertanggung jawab atas pertanyaan ini. Jangan sertakan karakter apa pun selain 'Urusan Umum' atau 'Urusan Administrasi' dalam jawaban Anda."

Awalnya, LLM akan menghasilkan jawaban tanpa pengetahuan apa pun tentang perusahaan ini. Tentu saja, beberapa jawaban akan salah, sementara yang lain mungkin benar secara kebetulan.

Untuk setiap jawaban, sistem guru menentukan apakah jawaban itu benar atau salah. Kemudian, kombinasi kalimat masukan, jawaban LLM, dan hasil penilaian disimpan dalam basis pengetahuan.

Proses ini diulang untuk sekitar setengah dari data pelatihan.

Untuk setengah sisa data pelatihan, proses yang sama dilakukan, tetapi kali ini semua informasi yang direkam dalam basis pengetahuan ditambahkan ke system prompt untuk LLM.

Pada titik ini, basis pengetahuan berisi informasi tentang pembagian tugas antara departemen Urusan Umum dan Urusan Administrasi perusahaan ini, sehingga kemungkinan mendapatkan jawaban yang benar seharusnya lebih tinggi daripada dengan separuh data pertama.

Dengan cara ini, sistem yang menggabungkan LLM dan basis pengetahuan dapat mempelajari pembagian tugas antara departemen Urusan Umum dan Urusan Administrasi perusahaan ini.

Mekanisme pembelajaran itu sendiri mirip dengan pembelajaran mesin numerik tradisional. Perbedaannya adalah bahwa hasil pembelajaran tercermin dalam basis pengetahuan, bukan dalam parameter jaringan saraf di dalam LLM. Dan, bahasa alami, bukan angka, yang dicatat dalam basis pengetahuan.

Ini adalah model dasar pembelajaran mesin bahasa alami.

Realitas Model Dasar

Seperti yang akan segera disadari oleh siapa pun yang memanfaatkan LLM, model dasar ini tidak realistis.

Ini karena, daripada bersusah payah memiliki sistem guru untuk menentukan jawaban yang benar dan salah, seseorang cukup memasukkan data pelatihan itu sendiri ke dalam system prompt sejak awal.

Namun, dengan menerapkan model dasar dan sedikit mengubah skenario, ia mendapatkan realisme.

Misalnya, misalkan departemen Urusan Umum dan Urusan Administrasi bersama-sama mendirikan meja pertanyaan, dan manusia secara individual memilah pertanyaan yang masuk ke departemen yang sesuai.

Sistem sederhana dapat dibuat untuk menambahkan pertanyaan-pertanyaan ini dan hasil peruteannya ke basis pengetahuan.

Kemudian, menggunakan basis pengetahuan ini, LLM dapat mengambil alih dari manusia dalam merutekan pertanyaan baru ke departemen.

Dalam kasus ini, jika LLM salah merutekan pertanyaan yang ditujukan untuk Urusan Administrasi ke Urusan Umum, penanggung jawab di Urusan Umum akan merutekan ulang pertanyaan tersebut kembali ke Urusan Administrasi. Informasi perutean ulang ini juga dicatat dalam basis pengetahuan.

Mekanisme sederhana untuk merekam log perutean ini, dikombinasikan dengan sistem LLM dan basis pengetahuan, akan menjadi model terbimbing yang realistis untuk pembelajaran mesin bahasa alami.

Poin utamanya di sini, sekali lagi, adalah bahwa parameter jaringan saraf di dalam LLM tidak berubah sama sekali. Dan hasil pembelajaran umpan balik bukanlah nilai numerik, melainkan kumpulan kalimat bahasa alami.

Selain itu, sistem ini secara tegas adalah sistem pembelajaran mesin, bukan sistem pembelajaran manusia.

Oleh karena itu, ini adalah bentuk baru pembelajaran mesin: pembelajaran mesin melalui bahasa alami.

Keunggulan Pembelajaran Mesin Bahasa Alami

Berbeda dengan pembelajaran mesin numerik, pembelajaran bahasa alami menawarkan banyak keuntungan.

Singkatnya, karakteristik utamanya adalah efisiensi pembelajaran yang luar biasa.

Pembelajaran mesin numerik umumnya membutuhkan data pelatihan dalam jumlah besar dan pembelajaran iteratif. Pra-pemrosesan data pelatihan juga diperlukan.

Sejumlah besar data pelatihan diperlukan karena fitur yang ingin dipelajari tidak terkandung dalam satu bagian data saja, melainkan tersebar di seluruh volume data yang besar.

Untuk alasan ini, data pelatihan dalam urutan kuadrat dari dimensi fitur yang benar-benar diinginkan diperlukan.

Pembelajaran iteratif diperlukan karena perubahan parameter selama satu loop umpan balik harus kecil untuk memastikan bahwa parameter jaringan saraf dipelajari dengan tepat tanpa jatuh ke dalam local optima.

Pra-pemrosesan data pelatihan, seperti normalisasi dan ekstraksi tepi, diperlukan untuk menyoroti fitur yang benar-benar diinginkan. Pra-pemrosesan ini juga membutuhkan upaya yang signifikan.

Misalnya, jika pembagian tugas antara departemen administrasi dan urusan umum akan dipelajari menggunakan jaringan saraf tradisional, dan fitur-fiturnya adalah 50 dimensi, setidaknya 1000 atau lebih titik data pelatihan akan diperlukan. Selain itu, 1000+ titik data ini mungkin perlu diulang sekitar 100 kali untuk mencapai akurasi pembelajaran yang memadai.

Selanjutnya, jika 1000 titik data ini mengandung kata-kata yang tidak relevan, variasi dalam ejaan kata, atau berbagai urutan kata dan sintaksis, efisiensi pembelajaran akan menurun, atau fitur yang tidak relevan akan dipelajari.

Oleh karena itu, pra-pemrosesan untuk menghapus kata-kata asing, menstandarkan kosa kata untuk menghilangkan variasi, dan menyatukan urutan kata dan sintaksis sangat diperlukan.

Di sisi lain, pembelajaran mesin bahasa alami membutuhkan lebih sedikit data pelatihan, tidak memerlukan iterasi dengan data pelatihan yang sama, dan dalam banyak kasus, tidak memerlukan pra-pemrosesan.

Jika fitur pembagian tugas antara departemen administrasi dan urusan umum adalah 50 dimensi, 50 informasi yang sesuai dengan setiap dimensi seringkali sudah cukup.

Terlebih lagi, ini tidak berarti bahwa 50 kalimat terpisah diperlukan.

Satu kalimat seperti "Tugas yang berkaitan dengan A, B, C, dan D ditangani oleh departemen administrasi" dapat mencakup informasi untuk empat dimensi.

Selain itu, dengan mengabstraksikan bahasa, informasi dari berbagai dimensi dapat digabungkan. Satu kalimat seperti "Departemen administrasi bertanggung jawab atas bahan habis pakai gedung dan pemeliharaan peralatan" menggabungkan informasi dari berbagai dimensi, termasuk penggantian bola lampu dan kerusakan pintu otomatis.

Abstraksi ini memanfaatkan pengetahuan dan kemampuan penalaran LLM yang telah dilatih sebelumnya, sehingga mengurangi jumlah data pelatihan yang dibutuhkan.

Dan, secara fundamental, pembelajaran bahasa alami tidak memerlukan pembelajaran iteratif. Setelah kalimat yang disebutkan di atas ditambahkan ke basis pengetahuan, pembelajaran selesai.

Selanjutnya, pra-pemrosesan pengetahuan tidak diperlukan. Bahkan jika deskripsi departemen administrasi atau urusan umum tercampur dengan berbagai kalimat lain, mereka masih dapat digunakan sebagai pengetahuan.

Atau, data mentah, seperti log pertanyaan dan penugasan seperti contoh sebelumnya, dapat segera dimanfaatkan sebagai data pelatihan tanpa pra-pemrosesan.

Dengan cara ini, pembelajaran mesin bahasa alami dapat belajar jauh lebih efisien daripada pembelajaran mesin numerik.

Kesimpulan

Dibandingkan dengan kemampuan komputasi numerik berkecepatan tinggi komputer, kemampuan pemrosesan bahasa alami dari model bahasa besar cukup lambat.

Namun, pembelajaran mesin bahasa alami memungkinkan pembelajaran yang lebih efisien dibandingkan dengan pembelajaran mesin numerik.

Efisiensi ini jauh melebihi kesenjangan antara kemampuan komputasi numerik berkecepatan tinggi dan kemampuan pemrosesan bahasa alami yang lambat.

Selain itu, model bahasa besar, yang telah mengalami evolusi menakjubkan melalui pembelajaran numerik, tampaknya mendekati batas peningkatan kemampuan melalui scaling up sederhana, sesuai dengan hukum scaling.

Dalam kasus tersebut, sangat mungkin bahwa fokus akan bergeser ke peningkatan kemampuan melalui pembelajaran mesin bahasa alami.