Langsung menyang Konten
Artikel iki wis diterjemahake saka Basa Jepang nggunakake AI
Waca ing Basa Jepang
Artikel iki ana ing Domain Publik (CC0). Aja ragu-ragu nggunakake kanthi bebas. CC0 1.0 Universal

Natural Language Machine Learning

Machine learning tradisional iku lumaku ing paradigma nalika komputer, sing pinter babagan itungan numerik, sinau saka data numerik lan entuk parameter numerik.

Ing sisih liya, kita ora mung bisa sinau liwat mekanisme numerik nanging uga liwat basa. Kita ngatur lan nyathet pengalaman dadi tembung, banjur ngelingi utawa maca tembung-tembung kuwi kanggo ngerteni.

Model basa gedhe uga bisa njlentrehake kawruh nganggo tembung lan nggunakake tembung kanthi maca.

Kanthi ngoptimalake model basa gedhe, sing minangka prosesor basa alami, machine learning basis basa alami dadi bisa, ora mung machine learning basis numerik.

Mula, tekane model basa gedhe wis mbukak lapangan anyar: natural language machine learning.

Pre-training model basa gedhe minangka machine learning numerik tradisional. Natural language machine learning sing dijelasake ing kene ngrujuk marang wujud machine learning anyar sing nggunakake model basa gedhe sing wis di-pre-train.

Model Dasar Natural Language Machine Learning

Natural language machine learning nduweni aspek sing padha, lan beda banget, karo machine learning numerik tradisional.

Kaping pisan, kanggo mangerteni gambaran natural language machine learning, kita bakal nerangake bagean-bagean sing padha karo machine learning numerik tradisional minangka model dhasar.

Wiwit saiki, kita bakal nyebut model basa gedhe sing wis dilatih sadurunge minangka LLM. Wigati dicathet, parameter LLM ora owah babar pisan sajrone proses sinau iki.

Model dhasar yaiku supervised learning, kanthi target masalah klasifikasi.

Pirang-pirang pasang ukara input lan klasifikasine disiapake minangka jawaban sing bener kanggo data pelatihan.

Contone, ayo kita sebutake perusahaan duwe Departemen Umum (General Affairs) lan Departemen Administrasi (Administrative Affairs).

Kalih departemen menika gadhah pembagian tugas. Kanggo ukara input kayata "Lampu kantor mati," "Kula kesupen kartu akses," utawa "Kula badhe pesen aula utama ing kantor pusat," klasifikasi nuduhake apa Departemen Umum utawa Departemen Administrasi sing tanggung jawab.

Saka data pelatihan iki, mung ukara input sing dijupuk lan dilebokake menyang LLM.

Ing kene, minangka pituduh sistem (system prompt), kita sengaja mbatesi wangsulan kanthi nyatakake, "Mangga wangsulana departemen pundi, Umum utawi Administrasi, ingkang tanggung jawab tumrap pitakonan menika. Aja nglebokake karakter liyane kajaba 'Umum' utawi 'Administrasi' ing wangsulan panjenengan."

Wiwitane, LLM bakal ngasilake jawaban tanpa kawruh babagan perusahaan iki. Mesthi, sawetara jawaban bakal salah, dene liyane bisa uga bener kanthi ora sengaja.

Kanggo saben jawaban, sistem guru nemtokake apa iku bener utawa salah. Banjur, kombinasi ukara input, jawaban LLM, lan asil pambiji disimpen ing knowledge base.

Proses iki diulang nganti kira-kira setengah saka data pelatihan.

Kanggo setengah sisa data pelatihan, proses sing padha ditindakake, nanging wektu iki kabeh informasi sing direkam ing knowledge base ditambahake menyang system prompt kanggo LLM.

Ing titik iki, knowledge base ngemot informasi babagan pembagian tugas antarane departemen Umum lan Administrasi perusahaan iki, mula kemungkinan entuk jawaban sing bener kudu luwih dhuwur tinimbang karo setengah pisanan data.

Kanthi cara iki, sistem sing nggabungake LLM lan knowledge base bisa sinau pembagian tugas antarane departemen Umum lan Administrasi perusahaan iki.

Mekanisme sinau kasebut padha karo machine learning numerik tradisional. Bedane yaiku asil sinau direfleksikake ing knowledge base, dudu ing parameter jaringan saraf ing LLM. Lan, basa alami, dudu angka, direkam ing knowledge base.

Iki minangka model dhasar natural language machine learning.

Realitase Model Dasar

Kaya sing bakal cepet disadari dening sapa wae sing nggunakake LLM, model dhasar iki kurang realistis.

Iki amarga, tinimbang repot-repot duwe sistem guru sing nemtokake jawaban sing bener lan salah, wong bisa uga mung nglebokake data pelatihan kasebut menyang pituduh sistem wiwit wiwitan.

Nanging, kanthi ngetrapake model dhasar lan ngowahi skenario sithik, model iki dadi luwih realistis.

Contone, umpamane departemen Urusan Umum lan Urusan Administrasi bebarengan nggawe meja pitakonan, lan manungsa kanthi individu nyaring pitakonan sing teka menyang departemen sing cocog.

Sistem sing prasaja bisa digawe kanggo nambah pitakonan kasebut lan asil pangalihan menyang basis kawruh.

Banjur, kanthi nggunakake basis kawruh iki, LLM bisa nggantekake manungsa kanggo ngarahake pitakonan anyar menyang departemen.

Ing kasus iki, menawa LLM salah ngarahake pitakonan kanggo Urusan Administrasi menyang Urusan Umum, wong sing tanggung jawab ing Urusan Umum bakal ngarahake maneh pitakonan kasebut menyang Urusan Administrasi. Informasi pangalihan maneh iki uga dicathet ing basis kawruh.

Mekanisme prasaja iki kanggo nyathet log pangalihan, digabungake karo LLM lan sistem basis kawruh, bakal dadi model supervised sing realistis kanggo natural language machine learning.

Titik kunci ing kene, maneh, yaiku parameter jaringan saraf ing LLM ora owah babar pisan. Lan asil sinau umpan balik dudu nilai numerik, nanging luwih minangka kumpulan ukara basa alami.

Kajaba iku, sistem iki ora liya minangka sistem machine learning, dudu sistem sinau manungsa.

Mula, iki minangka wujud machine learning anyar: machine learning liwat basa alami.

Kekuwatan Natural Language Machine Learning

Beda karo machine learning numerik, sinau basa alami nawakake akeh kaluwihan.

Cekakipun, ciri khasipun inggih menika efisiensi sinau ingkang ageng sanget.

Machine learning numerik umume mbutuhake data pelatihan sing akeh lan sinau berulang. Pra-proses data pelatihan uga perlu.

Data pelatihan sing akeh dibutuhake amarga fitur sing pengin disinaoni ora mung ana ing siji data, nanging kasebar ing volume data sing akeh.

Amarga alasan iki, data pelatihan kanthi urutan kuadrat saka dimensi fitur sing bener-bener dikarepake dibutuhake.

Sinau berulang perlu amarga owah-owahan ing parameter sajrone siji putaran umpan balik kudu cilik kanggo njamin parameter jaringan saraf disinaoni kanthi bener tanpa tiba ing optima lokal.

Pra-proses data pelatihan, kayata normalisasi lan ekstraksi pinggir, perlu kanggo nyorot fitur sing bener-bener dikarepake. Pra-proses iki uga mbutuhake upaya sing signifikan.

Contone, yen pembagian tugas antarane departemen administrasi lan umum arep disinaoni nggunakake jaringan saraf tradisional, lan fitur-fitur kasebut 50-dimensi, paling ora 1000 utawa luwih titik data pelatihan bakal dibutuhake. Kajaba iku, 1000+ titik data kasebut bisa uga kudu diulang udakara 100 kali kanggo entuk akurasi sinau sing cukup.

Salajengipun, menawi 1000 titik data menika ngandhut tembung-tembung ingkang boten perlu, variasi ejaan tembung, utawi maneka warna urutan tembung lan sintaksis, efisiensi sinau badhe suda, utawi fitur-fitur ingkang boten relevan badhe disinaoni.

Mula, pra-pemrosesan kanggo mbusak tembung-tembung sing ora perlu, standarisasi kosakata kanggo ngilangi variasi, lan nyawijikake urutan tembung lan sintaksis iku penting banget.

Ing sisih liya, natural language machine learning mbutuhake data pelatihan sing luwih sithik, ora mbutuhake iterasi kanthi data pelatihan sing padha, lan ing pirang-pirang kasus, ora mbutuhake pra-proses.

Menawi fitur-fitur pembagian tugas antawis departemen administrasi lan umum menika 50-dimènsi, 50 informasi ingkang cocog kaliyan saben dimènsi menika asring sampun cekap.

Menapa malih, menika boten ateges bilih 50 ukara kapisah dipunbetahaken.

Ukara tunggal kaya "Tugas sing gegayutan karo A, B, C, lan D ditangani dening departemen administrasi" bisa ngemot informasi kanggo papat dimensi.

Salajengipun, kanthi abstraksi basa, informasi saking kathah dimènsi saged dipunkempalaken. Satunggal ukara kados "Departemen administrasi nggih menika tanggung jawab kagem babagan barang-barang konsumsi bangunan lan pangopènan piranti" ngempalaken informasi saking kathah dimènsi, kalebet nggantos lampu lan gangguan lawang otomatis.

Abstraksi iki nggunakake kawruh lan kemampuan penalaran LLM sing wis dilatih sadurunge, saengga ngurangi jumlah data pelatihan sing dibutuhake.

Lan, sejatine, sinau basa alami ora mbutuhake sinau iterative. Sawise ukara kasebut ditambahake menyang knowledge base, sinau rampung.

Salajengipun, pra-pemrosesan kawruh boten prelu. Sanajan deskripsi departemen administrasi utawi urusan umum kecampur kaliyan macem-macem ukara sanesipun, menika tetep saged dipunginakaken minangka kawruh.

Utawa, data mentah, kayata log pitakon lan tugas kaya ing conto sadurunge, bisa langsung digunakake minangka data pelatihan tanpa pra-proses.

Kanthi cara iki, natural language machine learning bisa sinau luwih efisien tinimbang machine learning numerik.

Panutup

Yèn dibandingaké karo kemampuan komputasi numerik komputer sing kacepetan dhuwur, kemampuan pangolahan basa alami model basa gedhe isih alon banget.

Nanging, natural language machine learning ndadekake sinau luwih efisien dibandingake karo machine learning numerik.

Efisiensi iki adoh ngluwihi jurang antarane kemampuan komputasi numerik kacepetan dhuwur lan kemampuan pangolahan basa alami sing alon.

Salajengipun, modhel basa ageng, ingkang sampun ngalami évolusi ngédapaken lumantar pasinaon numerik, kadosipun sampun nyedhaki watesipun ing paningkatan kapabilitas lumantar skala ingkang prasaja, miturut hukum skala.

Ing kasus kasebut, bisa uga fokus bakal pindhah menyang ningkatake kapabilitas liwat natural language machine learning.