Doğal Dil Makine Öğrenimi | Katoshi'nin Araştırma Notları

Geleneksel makine öğrenimi, sayısal hesaplamada uzman bilgisayarların sayısal verilerden öğrenip sayısal parametreler edindiği bir paradigma içinde çalışır.

Öte yandan, biz sadece sayısal mekanizmalarla değil, aynı zamanda dil aracılığıyla da öğrenebiliriz. Deneyimleri kelimeler olarak düzenler ve kaydeder, sonra bu kelimeleri hatırlayarak veya okuyarak kullanırız.

Büyük dil modelleri de benzer şekilde bilgiyi kelimelerle tanımlayabilir ve kelimeleri okuyarak kullanabilir.

Doğal dil işlemcileri olan büyük dil modellerinden yararlanarak, sadece sayısal tabanlı makine öğrenimi yerine, doğal dil tabanlı makine öğrenimi de mümkün hale gelmektedir.

Sonuç olarak, büyük dil modellerinin ortaya çıkışı yeni bir alanı açmıştır: doğal dil makine öğrenimi.

Büyük dil modellerinin ön eğitimi, geleneksel sayısal makine öğrenimidir. Burada açıklanan doğal dil makine öğrenimi, önceden eğitilmiş büyük dil modellerini kullanan yeni bir makine öğrenimi biçimini ifade eder.

Doğal Dil Makine Öğreniminin Temel Modeli

Doğal dil makine öğrenimi, geleneksel sayısal makine öğrenimi ile benzer ve tamamen farklı yönleri bir arada barındırır.

İlk olarak, doğal dil makine öğreniminin bir imgesini kavramak için, geleneksel sayısal makine öğrenimi ile benzer olan kısımlarını temel bir model olarak açıklayacağız.

Bu noktadan itibaren, önceden eğitilmiş büyük dil modelini LLM olarak adlandıracağız. Lütfen bu öğrenme süreci boyunca LLM'nin parametrelerinin hiçbir şekilde değişmediğine dikkat edin.

Temel model, bir sınıflandırma problemini hedefleyen denetimli öğrenmedir.

Eğitim verisi için doğru cevaplar olarak birden fazla giriş cümlesi ve bunların sınıflandırmaları çifti hazırlanır.

Örneğin, bir şirketin Genel İşler Departmanı ve İdari İşler Departmanı olduğunu varsayalım.

Bu iki departmanın görev dağılımı vardır. "Ofisin ampulü patladı", "Giriş kartımı unuttum" veya "Genel merkezdeki ana salonu ayırtmak istiyorum" gibi giriş cümleleri için sınıflandırma, Genel İşler Departmanı'nın mı yoksa İdari İşler Departmanı'nın mı sorumlu olduğunu belirtir.

Bu eğitim verisinden sadece giriş cümleleri çıkarılır ve LLM'ye beslenir.

Burada, bir sistem komutu olarak, "Bu soruşturmadan hangi departmanın, Genel İşler mi yoksa İdari İşler mi sorumlu olduğunu yanıtlayın. Cevabınıza 'Genel İşler' veya 'İdari İşler' dışındaki karakterleri dahil etmeyin." diyerek cevabı kasıtlı olarak kısıtlıyoruz.

Başlangıçta, LLM bu şirket hakkında herhangi bir bilgi olmadan cevaplar üretecektir. Doğal olarak, bazı cevaplar yanlış olacak, bazıları ise tesadüfen doğru olabilir.

Her cevap için, öğretmen sistemi doğru mu yanlış mı olduğunu belirler. Ardından, giriş cümlesi, LLM'nin cevabı ve yargılama sonucunun birleşimi bir bilgi tabanına kaydedilir.

Bu süreç, eğitim verisinin yaklaşık yarısı için tekrarlanır.

Eğitim verisinin kalan yarısı için de aynı süreç uygulanır, ancak bu sefer bilgi tabanında kaydedilen tüm bilgiler LLM için sistem komutuna eklenir.

Bu noktada, bilgi tabanı bu şirketin Genel İşler ve İdari İşler departmanları arasındaki görev dağılımı hakkında bilgi içerdiğinden, doğru cevap alma olasılığı ilk yarıdaki verilere göre daha yüksek olmalıdır.

Bu şekilde, LLM ve bilgi tabanını birleştiren bir sistem, bu şirketin Genel İşler ve İdari İşler departmanları arasındaki görev dağılımını öğrenebilir.

Öğrenme mekanizması, geleneksel sayısal makine öğrenimine benzerdir. Fark, öğrenme sonuçlarının LLM içindeki sinir ağının parametrelerinde değil, bilgi tabanına yansımasıdır. Ve bilgi tabanına sayılar değil, doğal dil kaydedilir.

Bu, doğal dil makine öğreniminin temel modelidir.

Temel Modelin Gerçekliği

LLM'leri kullanan herkesin hızla fark edeceği gibi, bu temel model gerçekçilikten yoksundur.

Çünkü, bir öğretmen sisteminin doğru ve yanlış cevapları belirlemesi zahmetine girmek yerine, eğitim verisinin kendisi en başından itibaren sistem komutuna basitçe girilebilir.

Ancak, temel modelin uygulanması ve senaryonun biraz değiştirilmesiyle gerçekçilik kazanır.

Örneğin, Genel İşler ve İdari İşler departmanlarının işbirliği içinde bir danışma masası kurduğunu ve insanların gelen soruları uygun departmana tek tek ayırdığını varsayalım.

Bu soruları ve yönlendirme sonuçlarını bir bilgi tabanına eklemek için basit bir sistem oluşturulabilir.

Daha sonra, bu bilgi tabanını kullanarak, LLM yeni soruları departmanlara yönlendirme görevini insanlardan devralabilir.

Bu durumda, LLM İdari İşler'e gitmesi gereken bir soruyu yanlışlıkla Genel İşler'e yönlendirirse, Genel İşler'deki sorumlu kişi soruyu tekrar İdari İşler'e yönlendirecektir. Bu yeniden yönlendirme bilgisi de bilgi tabanına kaydedilir.

Yönlendirme günlüklerini kaydetmek için bu basit mekanizma, LLM ve bilgi tabanı sistemiyle birleştiğinde, doğal dil makine öğrenimi için gerçekçi bir denetimli model haline gelecektir.

Buradaki kilit nokta, yine, LLM içindeki sinir ağı parametrelerinin hiç değişmemesidir. Ve geri bildirimle öğrenilen sonuçlar sayısal değerler değil, doğal dil cümleleri koleksiyonlarıdır.

Üstelik, bu sistem tartışmasız bir makine öğrenimi sistemidir, insan öğrenimi sistemi değildir.

Bu nedenle, bu yeni bir makine öğrenimi biçimidir: doğal dil aracılığıyla makine öğrenimi.

Doğal Dil Makine Öğreniminin Güçlü Yönleri

Sayısal makine öğreniminden farklı olarak, doğal dil öğrenimi birçok avantaj sunar.

Tek kelimeyle, belirleyici özelliği ezici öğrenme verimliliğidir.

Sayısal makine öğrenimi genellikle büyük miktarda eğitim verisi ve yinelemeli öğrenme gerektirir. Eğitim verisinin ön işlenmesi de gereklidir.

Çok miktarda eğitim verisi gereklidir, çünkü öğrenilmek istenen özellikler tek bir veri parçasında bulunmaz, ancak büyük bir veri hacmine yayılmıştır.

Bu nedenle, gerçekten istenen özelliklerin boyutunun karesi mertebesinde eğitim verisi gereklidir.

Yinelemeli öğrenme gereklidir, çünkü sinir ağı parametrelerinin yerel optimumlara düşmeden uygun şekilde öğrenilmesini sağlamak için tek bir geri bildirim döngüsündeki parametre değişiminin küçük olması gerekir.

Gerçekten istenen özelliklerin vurgulanması için normalleştirme ve kenar çıkarma gibi eğitim verisinin ön işlenmesi gereklidir. Bu ön işleme de önemli çaba gerektirir.

Örneğin, idari ve genel işler departmanları arasındaki görev dağılımı geleneksel bir sinir ağı kullanılarak öğrenilecek olsaydı ve özellikleri 50 boyutlu olsaydı, en az 1000 veya daha fazla eğitim veri noktası gerekirdi. Buna ek olarak, yeterli öğrenme doğruluğuna ulaşmak için bu 1000+ veri noktasının yaklaşık 100 kez tekrarlanması gerekebilir.

Ayrıca, bu 1000 veri noktası gereksiz kelimeler, kelime yazımındaki varyasyonlar veya çeşitli kelime sıralamaları ve söz dizimleri içeriyorsa, öğrenme verimliliği düşecek veya alakasız özellikler öğrenilecektir.

Bu nedenle, gereksiz kelimeleri çıkarmak, varyasyonları ortadan kaldırmak için kelime dağarcığını standartlaştırmak ve kelime sırasını ve söz dizimini birleştirmek için ön işleme vazgeçilmezdir.

Öte yandan, doğal dil makine öğrenimi daha az eğitim verisi gerektirir, aynı eğitim verisiyle yinelemeyi gerektirmez ve çoğu durumda ön işleme gerektirmez.

İdari ve genel işler departmanları arasındaki görev dağılımının özellikleri 50 boyutlu ise, her boyuta karşılık gelen 50 bilgi parçası genellikle yeterlidir.

Dahası, bu 50 ayrı cümlenin gerekli olduğu anlamına gelmez.

"A, B, C ve D ile ilgili görevler idari departman tarafından yürütülür" gibi tek bir cümle dört boyut için bilgi içerebilir.

Ayrıca, dili soyutlayarak, birden çok boyuttan gelen bilgiler bir araya getirilebilir. "Bina sarf malzemeleri ve ekipman bakımı idari departmanın sorumluluğundadır" gibi tek bir cümle, ampul değişimi ve otomatik kapı arızaları dahil olmak üzere geniş bir boyut yelpazesinden bilgiyi bir araya getirir.

Bu soyutlama, LLM'nin önceden eğitilmiş bilgi ve akıl yürütme yeteneklerini kullanarak, gerekli eğitim verisi miktarını azaltır.

Ve temelde, doğal dil öğrenimi yinelemeli öğrenme gerektirmez. Yukarıda bahsedilen cümle bilgi tabanına eklendiğinde, öğrenme tamamlanmış olur.

Ayrıca, bilginin ön işlenmesi gerekli değildir. İdari veya genel işler departmanlarının açıklamaları diğer çeşitli cümlelerle karışsa bile, bilgi olarak kullanılabilirler.

Alternatif olarak, önceki örnekte olduğu gibi sorgu ve atama günlükleri gibi ham veriler, ön işleme olmaksızın hemen eğitim verisi olarak kullanılabilir.

Bu şekilde, doğal dil makine öğrenimi, sayısal makine öğreniminden çok daha verimli bir şekilde öğrenebilir.

Sonuç

Bilgisayarların yüksek hızlı sayısal hesaplama yetenekleriyle karşılaştırıldığında, büyük dil modellerinin doğal dil işleme yetenekleri oldukça yavaştır.

Ancak, doğal dil makine öğrenimi, sayısal makine öğrenimine kıyasla daha verimli öğrenmeye olanak tanır.

Bu verimlilik, yüksek hızlı sayısal hesaplama yetenekleri ile yavaş doğal dil işleme yetenekleri arasındaki farkı fazlasıyla telafi eder.

Ayrıca, sayısal öğrenme yoluyla şaşırtıcı bir evrim geçiren büyük dil modelleri, ölçeklendirme yasalarına göre basit ölçeklendirme yoluyla yetenek iyileştirmede bir sınıra yaklaşıyor gibi görünmektedir.

Bu durumda, odak noktasının doğal dil makine öğrenimi yoluyla yeteneklerin geliştirilmesine kayması oldukça muhtemeldir.

Doğal Dil Makine Öğreniminin Temel Modeli

Temel Modelin Gerçekliği

Doğal Dil Makine Öğreniminin Güçlü Yönleri

Sonuç

Kategoriler