İçeriğe Atla
Bu makale, yapay zeka kullanılarak Japoncadan çevrilmiştir
Japonca oku
Bu makale Kamu Malı (CC0)'dır. Özgürce kullanmaktan çekinmeyin. CC0 1.0 Universal

Doğal Dil Makine Öğrenimi

Geleneksel makine öğrenimi, sayısal hesaplamalarda yetenekli bilgisayarların sayısal verileri kullanarak öğrendiği ve nicel parametreler edindiği bir paradigma içinde çalışır.

Ancak insanlar, sadece sayısal mekanizmalarla değil, aynı zamanda dil aracılığıyla da öğrenme yeteneğine sahiptir. Deneyimleri kelimelerle düzenler ve kaydeder, sonra bu kelimeleri hatırlar, okur ve kullanırız.

Büyük Dil Modelleri (LLM'ler) de benzer şekilde bilgiyi kelimelerle tanımlayabilir ve kelimeleri okuyarak bilgiyi kullanabilir.

LLM'leri doğal dil işlemcisi olarak kullanarak, yalnızca sayısal tabanlı makine öğrenimi yerine, doğal dil tabanlı makine öğrenimi mümkün hale gelir.

Bu nedenle, LLM'lerin ortaya çıkışı, doğal dil makine öğrenimi adlı yeni bir alanı açmıştır.

LLM'lerin ön eğitimi, geleneksel sayısal makine öğreniminin bir biçimidir. Burada bahsedilen doğal dil makine öğrenimi, önceden eğitilmiş LLM'leri kullanan yeni bir makine öğrenimi türünü ifade eder.

Doğal Dil Makine Öğreniminin Temel Modeli

Doğal dil makine öğrenimi, geleneksel sayısal makine öğrenimiyle benzer yönlere sahip olduğu gibi, tamamen farklı yönlere de sahiptir.

Öncelikle doğal dil makine öğrenimi kavramını anlamak için, geleneksel sayısal makine öğrenimine benzeyen kısımlara odaklanan temel bir modeli açıklayalım.

Buradan itibaren, önceden eğitilmiş Büyük Dil Modeli'ne LLM olarak atıfta bulunulacaktır. Bu öğrenme sürecinde LLM'nin parametrelerinin kesinlikle değişmediğine dikkat edin.

Temel model, sınıflandırma problemlerini hedefleyen denetimli bir öğrenme modelidir.

Öğrenme verisi için, girdi cümleleri ve bunların sınıflandırmalarından oluşan birden fazla çift, doğru cevaplar olarak hazırlanır.

Örneğin, bir şirketin Genel İşler Departmanı ve İdari İşler Departmanı olduğunu varsayalım.

Bu iki departmanın belirgin rolleri vardır. "Ofis ampulü patladı", "Giriş kartımı unuttum" veya "Genel merkezdeki ana salonu rezerve etmek istiyorum" gibi girdi cümleleri için, sınıflandırma, Genel İşler veya İdari İşler'den hangi departmanın sorumlu olduğunu belirtir.

Bu eğitim verisinden yalnızca girdi cümleleri çıkarılır ve LLM'ye beslenir.

Burada, bir sistem komutu aracılığıyla yanıtı kasıtlı olarak kısıtlarız, örneğin: "Bu sorgudan sorumlu departmanın Genel İşler mi yoksa İdari İşler mi olduğunu belirtin. Yanıtınızda 'Genel İşler' veya 'İdari İşler' dışındaki hiçbir karakteri kullanmayın."

Başlangıçta, LLM bu şirket hakkında bilgi sahibi olmadan bir yanıt oluşturur. Doğal olarak, yanlış olabilir veya bazen tesadüfen doğru olabilir.

Her yanıt için, bir öğretim sistemi doğru veya yanlış olduğunu belirler. Ardından, girdi cümlesi, LLM'nin yanıtı ve yargı sonucunun birleşimi bir bilgi tabanına kaydedilir.

Bu süreç, eğitim verisinin yaklaşık yarısı için tekrarlanır.

Eğitim verisinin kalan yarısı için, bilgi tabanına kaydedilen tüm bilgiler LLM için sistem komutuna eklenir ve aynı süreç gerçekleştirilir.

Bu noktada, bilgi tabanı bu şirketin Genel İşler ve İdari İşler departmanları arasındaki görev dağılımı hakkında bilgi içerdiğinden, doğru cevap olasılığı verilerin ilk yarısına göre daha yüksek olmalıdır.

Bu şekilde, bir LLM ve bir bilgi tabanını birleştiren bir sistem, bir şirketin Genel İşler ve İdari İşler departmanlarının görev dağılımını öğrenebilir.

Öğrenme mekanizmasının kendisi geleneksel sayısal makine öğrenimine benzer. Fark, öğrenme sonuçlarının LLM içindeki sinir ağının parametrelerinde değil, bilgi tabanında yansıtılmasıdır. Ayrıca, bilgi tabanı sayısal değerler değil, doğal dil kaydeder.

Bu, doğal dil makine öğreniminin temel modelidir.

Temel Modelin Gerçekliği

LLM'leri kullananların hızla fark edeceği gibi, bu temel model gerçeklikten uzaktır.

Çünkü, bir öğretim sisteminin doğru/yanlış yargılarını belirlemesi zahmetine girmeye gerek kalmadan, doğrudan eğitim verisinin kendisini sistem istemine girmek yeterli olacaktır.

Ancak, temel modeli uygulayarak senaryoyu biraz değiştirirsek, model gerçekçi bir hal alır.

Örneğin, Genel İşler Departmanı ve İdari İşler Departmanı'nın ortaklaşa bir danışma masası oluşturduğunu ve bir insanın gelen her sorguyu uygun departmana manuel olarak atadığını düşünün.

Bu sorguları ve atama sonuçlarını bir bilgi tabanına ekleyen basit bir sistem oluşturulur.

Daha sonra, bu bilgi tabanını kullanarak, LLM insanların yerini alabilir ve yeni sorguları departmanlara atayabilir.

Bu durumda, eğer LLM İdari İşler'e ait bir sorguyu yanlışlıkla Genel İşler'e atarsa, Genel İşler personeli sorguyu tekrar İdari İşler'e atar. Bu yeniden atama bilgisi de bilgi tabanına kaydedilir.

Bu basit atama kayıtlarını tutan mekanizma, bir LLM ve bir bilgi tabanıyla birleştiğinde, gerçekçi bir denetimli doğal dil makine öğrenimi modeli oluşturacaktır.

Buradaki kilit nokta, tekrar belirtmek gerekirse, LLM içindeki sinir ağının parametrelerinin kesinlikle değişmemesidir. Dahası, geri bildirimli öğrenme sonucu sayısal değerler değil, doğal dil cümlelerinden oluşan bir koleksiyondur.

Ve şüphesiz ki, bu sistem insan öğrenmesi değil, makine öğrenmesi içerir.

Bu nedenle, bu, makine öğreniminin yeni bir biçimidir: doğal dil makine öğrenimi.

Doğal Dil Makine Öğreniminin Güçlü Yönleri

Sayısal makine öğreniminden farklı olarak, doğal dil öğrenimi birçok avantaj sunar.

Tek kelimeyle ifade etmek gerekirse, belirleyici özelliği ezici bir öğrenme verimliliğidir.

Sayısal makine öğrenimi genellikle büyük miktarda eğitim verisi ve yinelemeli öğrenme gerektirir. Ayrıca, eğitim verisinin ön işlenmesi de gereklidir.

Çok miktarda eğitim verisine ihtiyaç duyulur çünkü öğrenilmesi istenen özellikler tek bir veri parçasında yer almaz, aksine geniş bir veri yığınına dağılmıştır.

Bu nedenle, gerçekten istenen özelliklerin boyutluluğunun karesi mertebesinde eğitim verisi gereklidir.

Yinelemeli öğrenme, sinir ağının parametrelerinin yerel minimumlara düşmeden uygun şekilde öğrenilmesini sağlamak için gereklidir; bu da her geri bildirimde parametre değişiminin küçük tutulmasını gerektirir.

Normalleştirme ve kenar çıkarma gibi eğitim verisinin ön işlenmesi, gerçekten istenen özelliklerin vurgulanması için gereklidir. Bu ön işleme de önemli çaba gerektirir.

Örneğin, İdari İşler Departmanı ile Genel İşler Departmanı arasındaki görev dağılımı geleneksel bir sinir ağı kullanılarak öğrenilecek olsaydı ve özellikleri 50 boyutlu olsaydı, en az yaklaşık 1.000 veya daha fazla eğitim verisi örneği gerekirdi. Buna ek olarak, uygun öğrenme doğruluğu elde etmek için bu 1.000'den fazla veri örneğinin yaklaşık 100 kez yinelemeli olarak öğrenilmesi gerekebilir.

Ayrıca, eğer bu 1.000 eğitim verisi örneği gereksiz kelimeler, yazım farklılıkları veya çeşitli kelime sıraları ve cümle yapıları içeriyorsa, öğrenme verimliliği azalır ve ilgisiz özellikler öğrenilebilir.

Bu nedenle, gereksiz kelimeleri çıkarmak, varyasyonları ortadan kaldırmak için terminolojiyi standartlaştırmak ve kelime sırasını ve sözdizimini birleştirmek için ön işleme vazgeçilmezdir.

Buna karşılık, doğal dil makine öğrenimi daha az eğitim verisi gerektirir, aynı eğitim verisiyle yineleme yapmaya ihtiyaç duymaz ve çoğu zaman ön işleme de gerek kalmaz.

Eğer İdari İşler Departmanı ile Genel İşler Departmanı arasındaki görev dağılımı için özellikler 50 boyutluysa, her boyuta karşılık gelen 50 bilgi parçası yeterlidir.

Üstelik, bu, 50 ayrı cümlenin gerektiği anlamına gelmez.

"A, B, C ve D ile ilgili görevler İdari İşler Departmanı tarafından yürütülür" gibi tek bir cümle, dört boyutlu bilgiyi kapsayabilir.

Ayrıca, dili soyutlayarak birden fazla boyuttan bilgi toplanabilir. "Bina sarf malzemelerinin ve tesislerinin bakımı İdari İşler Departmanı'nın sorumluluğundadır" gibi bir cümle, ampul değişimi ve otomatik kapı arızaları dahil olmak üzere geniş bir yelpazedeki boyutsal bilgiyi bir araya getirir.

Bu soyutlamanın, LLM'nin önceden eğitilmiş bilgisi ve akıl yürütme yeteneklerinden yararlanılarak eğitim verisini azalttığı söylenebilir.

Ve temel olarak, doğal dil öğrenimi yinelemeli öğrenmeyi gerektirmez. Bahsedilen cümle bir kez bilgi tabanına eklendiğinde öğrenme tamamlanır.

Ek olarak, bilginin ön işlenmesi gereksizdir. İdari İşler Departmanı veya Genel İşler Departmanı açıklamaları çeşitli metinlerde karışık olsa bile, bunlar yine de bilgi olarak kullanılabilir.

Veya, önceki örnekte olduğu gibi, sorgu ve atama kayıtları gibi ham veriler, ön işleme yapılmadan hemen eğitim verisi olarak kullanılabilir.

Böylece, doğal dil makine öğrenimi, sayısal makine öğreniminden çok daha verimli bir şekilde öğrenebilir.

Sonuç

Bilgisayarların yüksek hızlı sayısal hesaplama yetenekleriyle karşılaştırıldığında, büyük dil modellerinin doğal dil işleme yeteneği oldukça yavaştır.

Ancak, doğal dil makine öğrenimi, yüksek hızlı sayısal hesaplama ile yavaş doğal dil işleme arasındaki farkı çok aşan verimli bir öğrenme imkanı sunar.

Ayrıca, sayısal öğrenme yoluyla şaşırtıcı ilerlemeler kaydeden büyük dil modelleri, ölçekleme yasalarına göre, basit ölçek büyütme yoluyla performans artışının sınırlarına yaklaşıyor gibi görünmektedir.

Böyle bir senaryoda, odağın doğal dil makine öğrenimi aracılığıyla yetenekleri artırmaya kayması oldukça olasıdır.