Pembelajaran mesin tradisional lumaku ing paradigma ing ngendi komputer, sing trampil ing komputasi numerik, sinau nggunakake data numerik lan entuk paramèter sing dikuantifikasi.
Nanging, manungsa duwe kemampuan sinau ora mung liwat mekanisme numerik, nanging uga liwat basa. Kita nyusun lan nyathet pengalaman ing tembung, banjur ngeling-eling, maca, lan nggunakake tembung-tembung kasebut.
Model Basa Gedhe (LLM) uga bisa njlentrehake kawruh ing tembung lan nggunakake kawruh kanthi maca tembung.
Kanthi nggunakake LLM minangka prosesor basa alami, pembelajaran mesin adhedhasar basa alami bisa ditindakake, tinimbang mung pembelajaran mesin adhedhasar numerik.
Amarga alesan iki, tekane LLM wis mbukak lapangan anyar: pembelajaran mesin basa alami.
Pra-latihan LLM minangka wujud pembelajaran mesin numerik tradisional. Pembelajaran mesin basa alami sing dirembug ing kene nuduhake jinis pembelajaran mesin anyar sing nggunakake LLM sing wis dilatih.
Model Dhasar Pembelajaran Mesin Basa Alami
Pembelajaran mesin basa alami nduweni aspek-aspek sing padha karo pembelajaran mesin numerik konvensional, uga aspek-aspek sing beda banget.
Kanggo ngerteni konsep pembelajaran mesin basa alami luwih dhisik, ayo njlentrehake model dhasar sing fokus ing bagean-bagean sing mirip karo pembelajaran mesin numerik tradisional.
Saka kene, Model Basa Gedhe sing wis dilatih sadurunge bakal disebut LLM. Wigati menawa paramèter LLM ora owah babar pisan sajrone prosès sinau iki.
Model dhasar iki minangka model pembelajaran kanthi pengawasan, kanthi target masalah klasifikasi.
Kanggo data sinau, disiapake sawetara pasangan ukara input lan klasifikasine minangka jawaban sing bener.
Contone, ayo dianggep ana perusahaan sing duwe Departemen Urusan Umum lan Departemen Urusan Administrasi.
Loro departemen iki duwe peran sing beda-beda. Kanggo ukara input kayata "Lampu kantor mati," "Aku lali kertu aksesku," utawa "Aku pengin pesen aula utama ing kantor pusat," klasifikasi nuduhake departemen sing tanggung jawab, yaiku Urusan Umum utawa Urusan Administrasi.
Saka data pelatihan iki, mung ukara input sing diekstrak lan diwenehake menyang LLM.
Ing kene, kita kanthi sengaja mbatesi respons liwat pituduh sistem kayata, "Mangga nyatakake apa departemen sing tanggung jawab kanggo pitakonan iki yaiku Urusan Umum utawa Urusan Administrasi. Aja nyertakake karakter liyane kajaba 'Urusan Umum' utawa 'Urusan Administrasi' ing jawaban sampeyan."
Wiwitane, LLM ngasilake respons tanpa kawruh babagan perusahaan iki. Mesthi wae, bisa uga salah, utawa kadhangkala bener kanthi ora sengaja.
Kanggo saben respons, sistem piwulang nemtokake apa respons kasebut bener utawa salah. Banjur, kombinasi ukara input, respons LLM, lan asil pertimbangan disimpen ing basis kawruh.
Proses iki diulang nganti kira-kira setengah saka data pelatihan.
Kanggo sisa setengah saka data pelatihan, kabeh informasi sing direkam ing basis kawruh ditambahake menyang pituduh sistem kanggo LLM, lan proses sing padha ditindakake.
Ing titik iki, basis kawruh ngemot informasi babagan pembagian tugas antarane departemen Urusan Umum lan Urusan Administrasi ing perusahaan iki, saengga kemungkinan jawaban sing bener kudune luwih dhuwur tinimbang setengah data sing pertama.
Kanthi cara iki, sistem sing nggabungake LLM lan basis kawruh bisa sinau pembagian tugas kanggo departemen Urusan Umum lan Urusan Administrasi perusahaan.
Mekanisme sinau kasebut padha karo pembelajaran mesin numerik tradisional. Bedane yaiku asil sinau direfleksikan ing basis kawruh, dudu ing paramèter jaringan saraf ing LLM. Salajengipun, basis kawruh ngrekam basa alami, dudu nilai numerik.
Iki minangka model dhasar pembelajaran mesin basa alami.
Realitas Model Dhasar
Kaya sing wis dimangerteni dening para pangguna LLM, model dhasar iki ora nduweni realisme.
Iki amarga ora perlu repot-repot nggawe sistem piwulang kanggo nemtokake putusan bener/salah; wong mung bisa nglebokake data pelatihan kasebut menyang pituduh sistem wiwit wiwitan.
Nanging, kanthi ngetrapake model dhasar lan ngowahi sethithik skenario, model kasebut bakal luwih realistis.
Contone, bayangake Departemen Urusan Umum lan Departemen Urusan Administrasi bebarengan nggawe méja pitakonan, lan manungsa kanthi manual menehi saben pitakonan sing teka menyang departemen sing cocog.
Sistem sing gampang dibangun kanggo nambah pitakonan lan asil penugasan kasebut menyang basis kawruh.
Banjur, nggunakake basis kawruh iki, LLM bisa ngganti manungsa lan menehi pitakonan anyar menyang departemen.
Ing kasus iki, yen LLM salah menehi pitakonan sing ditujokake kanggo Urusan Administrasi menyang Urusan Umum, staf Urusan Umum bakal menehi maneh pitakonan kasebut menyang Urusan Administrasi. Informasi penugasan ulang iki uga dicathet ing basis kawruh.
Mekanisme prasaja kanggo nyathet log penugasan, digabungake karo LLM lan basis kawruh, bakal dadi model pembelajaran mesin basa alami kanthi pengawasan sing realistis.
Titik kunci ing kene, kanggo ngulang maneh, yaiku paramèter jaringan saraf ing LLM ora owah babar pisan. Kajaba iku, asil sinau umpan balik minangka koleksi ukara basa alami, dudu nilai numerik.
Lan, tanpa mangu-mangu, sistem iki kalebu pembelajaran mesin, dudu pembelajaran manungsa.
Mula, iki minangka wujud anyar pembelajaran mesin: pembelajaran mesin basa alami.
Kekuatan Pembelajaran Mesin Basa Alami
Beda karo pembelajaran mesin numerik, pembelajaran basa alami nawakake akeh kaluwihan.
Sacara ringkes, ciri khasé yaiku èfisiènsi sinau sing dhuwur banget.
Pembelajaran mesin numerik umumé mbutuhaké data pelatihan sing akèh lan sinau iteratif. Salajengipun, pra-pangolahan data pelatihan uga perlu.
Data pelatihan sing akèh dibutuhaké amarga fitur-fitur sing kudu disinaoni ora mung ana ing siji data waé, nanging kasebar ing antarane data sing akèh banget.
Amarga alesan iki, data pelatihan kanthi urutan kuadrat saka dimensi fitur sing bener-bener dikarepaké dibutuhaké.
Sinau iteratif dibutuhaké kanggo mesthekaké paramèter jaringan saraf disinaoni kanthi bener tanpa tiba ing minima lokal, sing mbutuhaké owah-owahan paramèter sing cilik karo saben umpan balik.
Pra-pangolahan data pelatihan, kayata normalisasi lan èkstraksi tepi, dibutuhaké kanggo nyorot fitur-fitur sing bener-bener dikarepaké. Pra-pangolahan iki uga mbutuhaké upaya sing signifikan.
Contone, yen pembagian tugas antarane Departemen Urusan Administrasi lan Departemen Urusan Umum kudu disinaoni nggunakake jaringan saraf tradisional, lan fitur-fitur kasebut 50-dimensi, paling ora kira-kira 1.000 utawa luwih conto data pelatihan bakal dibutuhaké. Saliyané iku, luwih saka 1.000 conto data kasebut bisa uga kudu disinaoni sacara iteratif watara 100 kaping kanggo nggayuh akurasi sinau sing cocog.
Salajengipun, yen set 1.000 conto data pelatihan iki ngemot tembung-tembung sing ora perlu, variasi ejaan, utawa macem-macem urutan tembung lan struktur ukara, èfisiènsi sinau suda, lan fitur-fitur sing ora ana hubungane bisa disinaoni.
Mula, pra-pangolahan kanggo mbusak tembung-tembung sing ora perlu, standarisasi terminologi kanggo ngilangi variasi, lan nyatukan urutan tembung lan sintaksis iku penting banget.
Kosok baline, pembelajaran mesin basa alami mbutuhaké data pelatihan sing luwih sithik, ora ana iterasi kanthi data pelatihan sing padha, lan asring ora ana pra-pangolahan.
Yen fitur-fitur kanggo pembagian tugas antarane Departemen Urusan Administrasi lan Departemen Urusan Umum duwe 50 dimensi, 50 informasi sing cocog karo saben dimensi wis cukup.
Kajaba iku, iki ora ateges 50 ukara kapisah dibutuhaké.
Siji ukara kaya "Tugas sing ana gandhengané karo A, B, C, lan D ditangani déning Departemen Urusan Administrasi" bisa ngemot papat dimensi informasi.
Salajengipun, kanthi ngabstrakaké basa, informasi saka macem-macem dimensi bisa digabungaké. Ukara kaya "Pangopènan barang-barang konsumsi lan fasilitas gedung tanggung jawab Departemen Urusan Administrasi" nggabungaké macem-macem informasi dimensi, kalebu panggantèn bolam lampu lan malfungsi lawang otomatis.
Abstraksi iki bisa ngurangi data pelatihan kanthi nggunakaké kawruh lan kapabilitas penalaran LLM sing wis dilatih sadurungé.
Lan, kanthi dhasar, sinau basa alami ora mbutuhaké sinau iteratif. Sawisé ukara kasebut ditambahi menyang basis kawruh, sinau wis rampung.
Kajaba iku, pra-pangolahan kawruh ora perlu. Sanajan panjelasan Departemen Urusan Administrasi utawa Departemen Urusan Umum dicampur ing macem-macem tèks, isih bisa digunakaké minangka kawruh.
Utawa, kaya ing conto sadurungé, data mentah kaya cathetan pitakonan lan penugasan bisa langsung digunakaké minangka data pelatihan tanpa pra-pangolahan.
Mangkono, pembelajaran mesin basa alami bisa sinau luwih èfisièn tinimbang pembelajaran mesin numerik.
Dudutan
Dibandhingaké karo kapabilitas komputasi numerik komputer sing dhuwur, kemampuan pangolahan basa alami model basa gedhe cukup alon.
Nanging, pembelajaran mesin basa alami ngidini sinau sing èfisièn, ngluwihi jurang antarane komputasi numerik kacepetan dhuwur lan pangolahan basa alami sing alon.
Salajengipun, model basa gedhe, sing wis nggawe kemajuan nggumunake liwat pembelajaran numerik, katon wis nyedhaki watesan peningkaté kinerja liwat skala munggah sing sederhana, miturut hukum skala.
Ing skenario kaya ngono, kemungkinan gedhe fokus bakal pindah menyang ningkataké kapabilitas liwat pembelajaran mesin basa alami.