기존의 기계 학습은 수치 계산에 능숙한 컴퓨터를 활용하여 수치 데이터를 사용해 학습하고, 정량화된 매개변수를 획득하는 패러다임 안에서 작동합니다.
하지만 인간은 수치적 메커니즘뿐만 아니라 언어를 통해서도 학습할 수 있습니다. 우리는 경험을 언어로 정리하고 기록하며, 그 언어를 기억하거나 읽어서 활용합니다.
대규모 언어 모델(LLM)도 이와 유사하게 지식을 언어로 기술하고 언어를 읽어 지식을 활용할 수 있습니다.
LLM을 자연어 처리기로 활용함으로써, 오로지 수치 기반의 기계 학습이 아닌, 자연어 기반의 기계 학습도 가능해집니다.
이러한 이유로, LLM의 등장은 자연어 기계 학습이라는 새로운 분야를 열었습니다.
LLM의 사전 학습은 전통적인 수치형 기계 학습의 한 형태입니다. 여기서 논의하는 자연어 기계 학습은 사전 학습된 LLM을 활용하는 새로운 유형의 기계 학습을 의미합니다.
자연어 기계 학습의 기본 모델
자연어 기계 학습은 기존의 수치형 기계 학습과 유사한 측면과 완전히 다른 측면을 모두 가지고 있습니다.
먼저, 자연어 기계 학습의 개념을 파악하기 위해 전통적인 수치형 기계 학습과 유사한 부분에 초점을 맞춰 기본 모델을 설명하겠습니다.
여기서부터는 사전 학습된 대규모 언어 모델을 LLM이라고 표기합니다. 이 학습 과정에서 LLM의 매개변수는 전혀 변경되지 않는다는 점에 유의하십시오.
기본 모델은 지도 학습 모델이며, 분류 문제를 대상으로 합니다.
학습 데이터로는 입력 문장과 해당 분류 쌍을 정답으로 여러 개 준비합니다.
예를 들어, 한 회사에 총무과와 서무과가 있다고 가정해 봅시다.
이 두 부서는 역할 분담이 명확합니다. "사무실 전구가 나갔습니다", "출입증을 잊어버렸습니다", "본사 대강당을 예약하고 싶습니다"와 같은 입력 문장에 대해, 해당 문의를 총무과와 서무과 중 어느 부서가 담당하는지가 분류로 지정됩니다.
이 학습 데이터에서 입력 문장만을 추출하여 LLM에 입력합니다.
여기서 시스템 프롬프트로 "이 문의의 담당 부서가 총무과와 서무과 중 어느 곳인지 답변해 주십시오. 답변에는 '총무과' 또는 '서무과' 외의 다른 문자는 포함하지 마십시오."와 같이 의도적으로 답변을 제한합니다.
처음에는 LLM이 해당 회사에 대한 지식 없이 답변을 생성합니다. 물론 틀릴 수도 있고, 우연히 맞을 수도 있습니다.
각 답변에 대해, 교사 시스템은 정답 여부를 판단합니다. 그리고 입력 문장, LLM의 답변, 판단 결과를 조합하여 지식 저장소에 저장합니다.
이 과정을 학습 데이터의 절반 정도까지 반복합니다.
나머지 절반의 학습 데이터에 대해서는 지식 저장소에 기록된 모든 정보를 시스템 프롬프트에 추가하여 LLM에 입력하고 동일한 과정을 수행합니다.
이 시점에서 지식 저장소에는 이 회사의 총무과와 서무과의 업무 분담에 대한 정보가 포함되어 있으므로, 처음 절반의 데이터를 사용했을 때보다 정답을 맞출 가능성이 더 높을 것입니다.
이러한 방식으로, LLM과 지식 저장소를 결합한 시스템은 회사의 총무과와 서무과 간의 업무 분담을 학습할 수 있습니다.
학습 메커니즘 자체는 전통적인 수치형 기계 학습과 유사합니다. 차이점은 학습 결과가 LLM 내 신경망의 매개변수가 아닌 지식 저장소에 반영된다는 점입니다. 또한, 지식 저장소에는 수치가 아닌 자연어가 기록됩니다.
이것이 자연어 기계 학습의 기본 모델입니다.
기본 모델의 현실성
LLM을 활용하는 사람들은 이 기본 모델이 현실성이 부족하다는 것을 금방 깨달을 것입니다.
교사 시스템이 정오 판단을 내리는 수고를 할 필요 없이, 처음부터 학습 데이터 자체를 시스템 프롬프트에 입력하면 되기 때문입니다.
하지만 기본 모델을 응용하여 시나리오를 약간 변경하면 현실성이 생겨납니다.
예를 들어, 총무과와 서무과가 공동으로 문의 창구를 만들어, 들어오는 문의를 사람이 일일이 적절한 부서로 배정한다고 가정해 봅시다.
이 문의와 배정 결과를 지식 저장소에 추가하는 간단한 시스템을 만듭니다.
그러면 이 지식 저장소를 사용하여 LLM이 사람을 대신하여 새로운 문의를 부서에 배정할 수 있게 됩니다.
이때 LLM이 서무과 담당 문의를 총무과에 잘못 배정했을 경우, 총무과 직원이 다시 서무과로 문의를 재배정합니다. 이 재배정 정보 또한 지식 저장소에 기록합니다.
이러한 간단한 배정 기록 로깅 메커니즘이 LLM 및 지식 저장소와 결합된다면, 현실적인 지도 학습 자연어 기계 학습 모델이 될 것입니다.
여기서 핵심은 다시 강조하지만, LLM 내 신경망의 매개변수는 전혀 변하지 않는다는 점입니다. 더욱이 피드백 학습 결과는 수치값이 아닌 자연어 문장의 집합입니다.
그리고 이 시스템은 의심할 여지 없이 인간의 학습이 아닌 기계 학습을 포함하고 있습니다.
따라서 이것은 자연어 기계 학습이라는 새로운 형태의 기계 학습입니다.
자연어 기계 학습의 장점
수치형 기계 학습과 달리, 자연어 학습은 많은 이점을 제공합니다.
한마디로 정의하자면, 압도적으로 높은 학습 효율성입니다.
수치형 기계 학습은 일반적으로 방대한 양의 학습 데이터와 반복적인 학습을 필요로 합니다. 게다가 학습 데이터의 전처리도 필수적입니다.
많은 양의 학습 데이터가 필요한 이유는 학습시키고자 하는 특징이 단일 데이터에만 포함되어 있는 것이 아니라 방대한 양의 데이터 사이에 분포되어 있기 때문입니다.
이러한 이유로, 진정으로 원하는 특징의 차원 수의 제곱에 해당하는 학습 데이터가 필요합니다.
반복적인 학습이 필요한 이유는 신경망의 매개변수가 지역 최저점에 빠지지 않고 적절하게 학습되도록 하기 위해 한 번의 피드백에서 매개변수 변화량을 작게 유지해야 하기 때문입니다.
정규화 및 에지 추출과 같은 학습 데이터의 전처리가 필요한 이유는 진정으로 원하는 특징을 부각시키기 위함입니다. 이 전처리에도 상당한 노력이 요구됩니다.
예를 들어, 서무과와 총무과 간의 업무 분담을 전통적인 신경망으로 학습시킨다고 가정했을 때, 그 특징이 50차원이라면 최소 약 1,000개 이상의 학습 데이터가 필요할 것입니다. 게다가 이 1,000개 이상의 데이터는 적절한 학습 정확도를 얻기 위해 약 100회 정도 반복 학습해야 할 수도 있습니다.
더 나아가, 이 1,000개의 학습 데이터 세트에 불필요한 단어나 표기법의 변형, 다양한 어순과 문장 구조가 포함되어 있다면 학습 효율이 떨어지고 관련 없는 특징을 학습할 수 있습니다.
따라서 불필요한 단어를 제거하고, 표기법의 변형을 없애기 위해 용어를 표준화하며, 어순과 구문을 통일하는 전처리가 필수적입니다.
반면, 자연어 기계 학습은 학습 데이터가 적게 필요하고, 동일한 학습 데이터로 반복할 필요가 없으며, 대부분의 경우 전처리도 불필요합니다.
서무과와 총무과의 업무 분담에 대한 특징이 50차원이라면 각 차원에 해당하는 50가지 정보만으로 충분합니다.
게다가 이것이 50개의 개별 문장이 필요하다는 의미는 아닙니다.
"A, B, C, D와 관련된 업무는 서무과에서 담당합니다"와 같은 한 문장으로 네 가지 차원의 정보를 담을 수 있습니다.
더 나아가 언어를 추상화함으로써 여러 차원의 정보를 통합할 수 있습니다. "건물 소모품 및 시설 유지보수는 서무과의 책임입니다"와 같은 문장은 전구 교체 및 자동문 고장 등 광범위한 차원의 정보를 통합합니다.
이러한 추상화는 LLM의 사전 학습된 지식과 추론 능력을 활용하여 학습 데이터를 줄이는 것이라고 할 수 있습니다.
그리고 근본적으로 자연어 학습은 반복 학습을 필요로 하지 않습니다. 앞서 언급한 문장이 지식 저장소에 한 번 추가되면 학습은 완료됩니다.
또한 지식의 전처리도 필요 없습니다. 다양한 텍스트에 서무과나 총무과에 대한 설명이 섞여 있더라도 이를 지식으로 활용할 수 있습니다.
또는 이전 예시처럼 문의 및 배정 기록과 같은 원시 데이터를 전처리 없이 즉시 학습 데이터로 활용할 수 있습니다.
따라서 자연어 기계 학습은 수치형 기계 학습보다 훨씬 효율적으로 학습할 수 있습니다.
결론
컴퓨터의 고속 수치 연산 능력에 비해 대규모 언어 모델의 자연어 처리 능력은 상당히 느립니다.
그러나 자연어 기계 학습은 고속 수치 연산과 느린 자연어 처리 사이의 격차를 훨씬 뛰어넘는 효율적인 학습을 가능하게 합니다.
더 나아가 수치 학습을 통해 경이로운 발전을 이룩한 대규모 언어 모델 역시 스케일링 법칙에 따라 단순한 스케일업만으로는 성능 향상에 한계에 다다르고 있는 것으로 보입니다.
이러한 시나리오에서, 역량 강화의 초점이 자연어 기계 학습으로 전환될 가능성이 매우 높습니다.