본문으로 건너뛰기
이 아티클은 AI를 사용하여 일본어에서 번역되었습니다
일본어로 읽기
이 아티클은 퍼블릭 도메인(CC0)입니다. 자유롭게 사용하십시오. CC0 1.0 Universal

자연어 기계 학습

기존의 기계 학습은 수치 계산에 능숙한 컴퓨터가 수치 데이터를 통해 학습하고 수치화된 매개변수를 얻는 패러다임 내에서 작동합니다.

반면에 우리는 수치적인 메커니즘뿐만 아니라 언어를 통해서도 학습할 수 있습니다. 우리는 경험을 단어로 정리하고 기록한 다음, 그 단어를 상기하거나 읽음으로써 활용합니다.

대규모 언어 모델도 이와 유사하게 단어를 사용하여 지식을 설명하고, 단어를 읽음으로써 활용할 수 있습니다.

자연어 처리기인 대규모 언어 모델을 활용함으로써, 수치 기반 기계 학습뿐만 아니라 자연어 기반 기계 학습도 가능해집니다.

결과적으로, 대규모 언어 모델의 등장은 자연어 기계 학습이라는 새로운 분야를 열었습니다.

대규모 언어 모델의 사전 학습은 전통적인 수치 기계 학습입니다. 여기서 설명하는 자연어 기계 학습은 사전 학습된 대규모 언어 모델을 활용하는 새로운 형태의 기계 학습을 의미합니다.

자연어 기계 학습의 기본 모델

자연어 기계 학습은 기존의 수치 기계 학습과 유사한 측면과 완전히 다른 측면을 모두 가지고 있습니다.

먼저, 자연어 기계 학습의 이미지를 파악하기 위해 기존 수치 기계 학습과 유사한 부분을 기본 모델로 설명하겠습니다.

여기서부터 사전 학습된 대규모 언어 모델을 LLM이라고 부르겠습니다. 이 학습 과정에서 LLM의 매개변수는 전혀 변하지 않는다는 점에 유의하십시오.

기본 모델은 분류 문제를 목표로 하는 지도 학습입니다.

학습 데이터의 정답으로 여러 입력 문장과 그 분류 쌍을 준비합니다.

예를 들어, 한 회사에 총무부와 행정부서가 있다고 가정해 봅시다.

이 두 부서는 업무 분담이 있습니다. "사무실 전구가 나갔어요", "출입증을 잊어버렸어요", "본사 대강당을 예약하고 싶어요"와 같은 입력 문장에 대해, 분류는 총무부 또는 행정부서 중 어느 쪽이 담당인지 나타냅니다.

이 학습 데이터에서 입력 문장만 추출하여 LLM에 입력합니다.

여기서 시스템 프롬프트로 "이 문의의 담당 부서가 총무부와 행정부서 중 어디인지 답변해 주세요. 답변에 '총무부' 또는 '행정부서' 외의 다른 문자를 포함하지 마세요."라고 명시하여 의도적으로 답변을 제한합니다.

처음에는 LLM이 이 회사에 대한 어떤 지식도 없이 답변을 생성할 것입니다. 당연히 일부 답변은 틀릴 것이고, 일부는 우연히 맞을 수도 있습니다.

각 답변에 대해 교사 시스템은 그것이 맞는지 틀리는지 판단합니다. 그런 다음 입력 문장, LLM의 답변, 판단 결과의 조합을 지식 베이스에 저장합니다.

이 과정은 학습 데이터의 약 절반까지 반복됩니다.

나머지 절반의 학습 데이터에 대해서는 동일한 프로세스를 수행하지만, 이번에는 지식 베이스에 기록된 모든 정보가 LLM의 시스템 프롬프트에 추가됩니다.

이 시점에서 지식 베이스에는 이 회사의 총무부와 행정부서 간의 업무 분담에 대한 정보가 포함되어 있으므로, 첫 번째 절반의 데이터보다 정답을 얻을 확률이 더 높아야 합니다.

이러한 방식으로 LLM과 지식 베이스를 결합한 시스템은 이 회사의 총무부와 행정부서 간의 업무 분담을 학습할 수 있습니다.

학습 메커니즘 자체는 전통적인 수치 기계 학습과 유사합니다. 차이점은 학습 결과가 LLM 내의 신경망 매개변수가 아니라 지식 베이스에 반영된다는 점입니다. 그리고 지식 베이스에는 숫자가 아닌 자연어가 기록됩니다.

이것이 자연어 기계 학습의 기본 모델입니다.

기본 모델의 현실성

LLM을 활용하는 사람이라면 누구나 빠르게 깨달겠지만, 이 기본 모델은 현실성이 부족합니다.

그 이유는 교사 시스템이 정답과 오답을 판별하는 수고를 들이는 대신, 처음부터 학습 데이터 자체를 시스템 프롬프트에 입력하기만 하면 되기 때문입니다.

하지만 기본 모델을 적용하고 시나리오를 약간 변경하면 현실성을 얻을 수 있습니다.

예를 들어, 총무부와 행정부가 협력하여 문의 데스크를 설치하고, 사람이 개별적으로 들어오는 문의를 적절한 부서로 분류한다고 가정해 봅시다.

이러한 문의와 분류 결과를 지식 베이스에 추가하는 간단한 시스템을 만들 수 있습니다.

그런 다음, 이 지식 베이스를 사용하여 LLM이 사람을 대신하여 새로운 문의를 부서로 분류할 수 있습니다.

이 경우, LLM이 행정부서로 가야 할 문의를 총무부로 잘못 분류하면, 총무부 담당자가 해당 문의를 다시 행정부서로 재분류할 것입니다. 이 재분류 정보도 지식 베이스에 기록됩니다.

이러한 간단한 분류 로그 기록 메커니즘이 LLM 및 지식 베이스 시스템과 결합되면 자연어 기계 학습을 위한 현실적인 지도 모델이 될 수 있습니다.

여기서 다시 강조할 핵심은 LLM 내부의 신경망 매개변수는 전혀 변하지 않는다는 점입니다. 그리고 피드백 학습 결과는 수치 값이 아니라 자연어 문장들의 집합이라는 점입니다.

더 나아가, 이 시스템은 의심할 여지 없이 인간 학습 시스템이 아닌 기계 학습 시스템입니다.

그러므로 이것은 자연어를 통한 기계 학습이라는 새로운 형태의 기계 학습입니다.

자연어 기계 학습의 강점

수치형 기계 학습과 달리, 자연어 학습은 많은 장점을 제공합니다.

한마디로, 그 특징은 압도적인 학습 효율성입니다.

수치형 기계 학습은 일반적으로 많은 양의 학습 데이터와 반복 학습을 필요로 합니다. 학습 데이터의 전처리 또한 필수적입니다.

많은 학습 데이터가 필요한 이유는 학습하고자 하는 특징이 단일 데이터 조각에 포함되어 있지 않고, 대량의 데이터에 분산되어 있기 때문입니다.

이러한 이유로, 진정으로 원하는 특징의 차원 수의 제곱에 해당하는 학습 데이터가 필요합니다.

반복 학습이 필요한 이유는 신경망 매개변수가 지역 최적점에 빠지지 않고 적절하게 학습되도록 보장하기 위해 단일 피드백 루프 동안 매개변수 변화를 작게 유지해야 하기 때문입니다.

정규화 및 에지 추출과 같은 학습 데이터의 전처리가 필요한 이유는 진정으로 원하는 특징을 부각시키기 위함입니다. 이 전처리 또한 상당한 노력을 요구합니다.

예를 들어, 행정부서와 총무부서 간의 업무 분장을 전통적인 신경망을 사용하여 학습하고, 그 특징이 50차원이라면, 최소 1000개 이상의 학습 데이터 포인트가 필요할 것입니다. 또한, 이 1000개 이상의 데이터 포인트는 적절한 학습 정확도를 달성하기 위해 약 100번 정도 반복 학습되어야 할 수도 있습니다.

더 나아가, 이 1000개의 데이터 포인트에 불필요한 단어, 단어 철자의 변형, 또는 다양한 단어 순서와 구문이 포함되어 있다면, 학습 효율성이 떨어지거나 관련 없는 특징이 학습될 수 있습니다.

따라서 불필요한 단어를 제거하고, 변형을 없애기 위해 어휘를 표준화하며, 단어 순서와 구문을 통일하는 전처리가 필수적입니다.

반면에 자연어 기계 학습은 더 적은 학습 데이터를 요구하고, 동일한 학습 데이터로 반복할 필요가 없으며, 많은 경우 전처리가 필요하지 않습니다.

행정부서와 총무부서 간 업무 분장의 특징이 50차원이라면, 각 차원에 해당하는 50개의 정보만으로도 충분한 경우가 많습니다.

더욱이, 이것이 50개의 별개의 문장이 필요하다는 의미는 아닙니다.

"A, B, C, D와 관련된 업무는 행정부서에서 처리합니다"와 같은 하나의 문장은 4개 차원에 대한 정보를 포함할 수 있습니다.

또한, 언어를 추상화함으로써 여러 차원의 정보를 통합할 수 있습니다. "건물 소모품 및 설비 유지는 행정부서의 담당입니다"와 같은 하나의 문장은 전구 교체 및 자동문 오작동을 포함한 광범위한 차원의 정보를 통합합니다.

이러한 추상화는 LLM의 사전 학습된 지식과 추론 능력을 활용하여 필요한 학습 데이터의 양을 줄입니다.

그리고 근본적으로 자연어 학습은 반복 학습을 필요로 하지 않습니다. 앞서 언급한 문장이 지식 베이스에 한 번 추가되면 학습이 완료됩니다.

더 나아가, 지식의 전처리도 필요하지 않습니다. 행정부서나 총무부서에 대한 설명이 다양한 다른 문장들과 섞여 있더라도, 그것들을 지식으로 활용할 수 있습니다.

또는 이전 예시에서와 같이 문의 및 배정 로그와 같은 원시 데이터도 전처리 없이 즉시 학습 데이터로 활용될 수 있습니다.

이러한 방식으로 자연어 기계 학습은 수치형 기계 학습보다 훨씬 효율적으로 학습할 수 있습니다.

결론

컴퓨터의 고속 수치 계산 능력에 비해 대규모 언어 모델의 자연어 처리 능력은 상당히 느립니다.

하지만 자연어 기계 학습은 수치 기계 학습에 비해 훨씬 효율적인 학습을 가능하게 합니다.

이러한 효율성은 고속 수치 계산 능력과 느린 자연어 처리 능력 사이의 격차를 훨씬 능가합니다.

더 나아가, 수치 학습을 통해 놀라운 발전을 이룬 대규모 언어 모델은 스케일링 법칙에 따라 단순한 규모 확장을 통한 능력 향상에 한계에 도달하고 있는 것으로 보입니다.

그렇다면, 자연어 기계 학습을 통한 능력 향상으로 초점이 전환될 가능성이 매우 높습니다.