현재의 생성형 AI는 트랜스포머의 발명이 주요한 돌파구가 되어 꽃피운 AI 기술입니다.
어텐션 메커니즘은 트랜스포머의 핵심 특징이라고 할 수 있습니다. 이는 트랜스포머를 발표한 논문의 제목인 "Attention Is All You Need"에도 간결하게 표현되어 있습니다.
이러한 배경에는 당시 AI 연구자들이 인간처럼 자연어를 능숙하게 다룰 수 있도록 AI를 만들기 위해 다양한 노력과 시행착오를 거치며, 성공적인 방법들에 이름을 붙여 논문을 발표했다는 점이 있습니다.
많은 연구자들은 이러한 여러 효과적인 메커니즘들을 다양하게 조합하면 점차적으로 인간처럼 자연어를 다룰 수 있는 AI를 만들 수 있다고 믿었습니다. 그들은 다른 메커니즘들과 함께 작동할 수 있는 새로운 메커니즘을 발견하고, 이러한 메커니즘들의 최적의 조합을 찾는 데 주력했습니다.
그러나 트랜스포머는 이러한 통념을 뒤집었습니다. 다양한 메커니즘을 조합할 필요가 없으며, 어텐션 메커니즘만으로 충분하다는 메시지가 논문 제목에 분명히 드러나 있습니다.
물론 트랜스포머 자체에도 다양한 메커니즘이 통합되어 있지만, 그중에서도 어텐션 메커니즘이 특히 혁신적이고 독보적이었다는 사실은 의심할 여지가 없습니다.
어텐션 메커니즘 개요
어텐션 메커니즘은 AI가 자연어에서 특정 단어를 처리할 때, 앞선 문장에 포함된 여러 단어 중 어떤 단어에 주의를 기울여야 할지 학습할 수 있도록 하는 시스템입니다.
이를 통해 AI는 예를 들어 "이것", "저것", "아까 말한"과 같은 지시 대명사(이전 문장의 단어를 가리키는 말)나, "서두 문장", "두 번째 예시", "바로 앞 문단"과 같은 위치 참조가 포함된 경우에도 해당 단어가 무엇을 지칭하는지 높은 정확도로 이해할 수 있습니다.
나아가 문장 내에서 수식어가 멀리 떨어져 있어도 적절하게 해석할 수 있으며, 긴 문장에서도 현재 단어가 언급하는 문맥을 놓치지 않고 다른 문장들 사이에서 길을 잃지 않도록 해석할 수 있습니다.
이것이 바로 '어텐션(주의 집중)'의 효용입니다.
반대로 말하면, 현재 처리 중인 단어를 해석할 때 불필요한 단어는 가려내어 해석에서 제외한다는 의미이기도 합니다.
특정 단어를 해석하는 데 필수적인 단어만 남기고 무관한 단어는 해석에서 제거함으로써, 텍스트가 아무리 길어져도 해석할 단어의 집합이 소수로 제한되어 해석의 밀도가 옅어지는 것을 방지할 수 있습니다.
가상 지능
이제 화제를 조금 바꿔, 저는 가상 지능이라는 개념에 대해 고심해왔습니다.
현재 기업에서 생성형 AI를 업무에 활용할 때, 회사 내의 모든 정보를 하나로 모아 AI의 지식 기반으로 제공하면 지식의 양이 너무 많아져 오히려 AI가 정보를 제대로 처리하지 못하는 현상이 발생합니다.
이러한 이유로, 업무별로 지식을 분리하고, 각 업무에 맞는 AI 챗봇을 준비하거나 특정 작업에 특화된 AI 도구를 만드는 것이 더 효과적입니다.
결과적으로 복합적인 작업을 수행할 때는 이렇게 분할된 지식을 가진 AI 챗봇이나 AI 도구들을 조합해야 할 필요가 생깁니다.
이것이 현재 생성형 AI 사용의 한계이지만, 근본적으로 미래의 생성형 AI에서도 특정 작업 시에는 해당 작업에 필요한 지식에만 집중하는 것이 더 높은 정확도를 가져올 것입니다.
그 대신, 저는 미래의 생성형 AI가 인간이 지식을 일일이 분할하지 않아도, 상황에 따라 필요한 지식을 내부적으로 구분하여 활용할 수 있게 될 것이라고 믿습니다.
이러한 능력이 바로 가상 지능입니다. 이는 한 대의 컴퓨터에서 여러 개의 다른 운영체제를 실행할 수 있는 가상 머신과 같습니다. 즉, 하나의 지능 안에서 서로 다른 전문성을 가진 여러 가상 지능이 기능할 수 있다는 의미입니다.
현재의 생성형 AI조차도 이미 여러 사람들의 토론을 시뮬레이션하거나 여러 인물이 등장하는 이야기를 생성할 수 있습니다. 따라서 가상 지능은 특별한 능력이 아니라 현재 생성형 AI의 연장선상에 있습니다.
마이크로 가상 지능
작업에 따라 필요한 지식을 선별하는 가상 지능의 메커니즘은 어텐션 메커니즘과 유사한 역할을 수행합니다.
다시 말해, 현재 실행 중인 작업에 기반하여 관련 지식에만 집중하고 처리한다는 점에서 어텐션 메커니즘과 비슷합니다.
반대로 어텐션 메커니즘은 가상 지능과 유사한 것을 구현하는 메커니즘이라고 할 수 있습니다. 다만, 제가 구상하는 가상 지능은 지식의 집합체에서 관련 지식을 선택하는 메커니즘인 반면, 어텐션 메커니즘은 단어 집합 단위를 기반으로 작동합니다.
이러한 이유로 어텐션 메커니즘을 마이크로 가상 지능이라고 부를 수 있습니다.
명시적 어텐션 메커니즘
어텐션 메커니즘을 마이크로 가상 지능으로 간주한다면, 반대로 제가 앞서 언급했던 가상 지능은 매크로 어텐션 메커니즘을 구축함으로써 달성될 수 있습니다.
그리고 이 매크로 어텐션 메커니즘은 대규모 언어 모델의 내부 구조에 추가되거나 신경망 학습을 수반할 필요가 없습니다.
단순히 자연어로 작성된 명시적인 문장, 예를 들어 "작업 A를 실행할 때는 지식 B와 지식 C를 참조하라"와 같은 형태면 충분합니다.
이는 작업 A에 필요한 지식을 명확히 합니다. 이 문장 자체도 일종의 지식입니다.
이것을 명시적 어텐션 메커니즘이라고 부를 수 있을 것입니다. 이 문장은 작업 A를 수행할 때 주의를 기울여야 할 지식을 명문화한 어텐션 지식으로 간주될 수 있습니다.
더 나아가, 이 어텐션 지식은 생성형 AI에 의해 생성되거나 업데이트될 수 있습니다.
만약 지식 부족으로 인해 특정 작업이 실패했다면, 그 반성을 바탕으로 해당 작업에서 참조해야 할 지식으로 다른 지식을 추가하도록 어텐션 지식을 업데이트하면 될 것입니다.
결론
어텐션 메커니즘은 생성형 AI의 능력을 비약적으로 발전시켰습니다.
이는 단순히 우연히 잘 작동하는 메커니즘이 아니었습니다. 여기서 살펴본 것처럼, 상황마다 참조할 정보를 동적으로 좁혀나가는 메커니즘 자체가 고도화된 지능의 본질인 것으로 보입니다.
그리고 가상 지능과 명시적 어텐션 지식처럼, 어텐션 메커니즘은 다양한 계층에서 지능을 재귀적으로 향상시키는 핵심이기도 합니다.