본문으로 건너뛰기
이 아티클은 AI를 사용하여 일본어에서 번역되었습니다
일본어로 읽기
이 아티클은 퍼블릭 도메인(CC0)입니다. 자유롭게 사용하십시오. CC0 1.0 Universal

마이크로 가상 지능으로서의 어텐션 메커니즘

현재의 생성형 AI는 획기적인 발전이었던 트랜스포머의 발명 덕분에 꽃을 피운 AI 기술입니다.

트랜스포머를 한마디로 특징짓는 것이 바로 어텐션 메커니즘입니다. 이는 트랜스포머를 발표한 논문의 제목인 "Attention is All You Need"에도 간결하게 표현되어 있습니다.

이는 당시 AI 연구자들이 AI가 인간처럼 자연어를 능숙하게 다룰 수 있도록 다양한 노력과 시도를 했고, 성공적인 여러 방법론에 이름을 붙여 논문을 발표했던 배경에서 비롯됩니다.

많은 연구자들은 이러한 잘 작동하는 여러 메커니즘을 다양하게 조합하면 인간처럼 자연어를 다룰 수 있는 AI가 점차 나타날 것이라고 믿었습니다. 그래서 그들은 다른 메커니즘과 함께 기능할 수 있는 새로운 메커니즘을 찾고, 이러한 메커니즘의 최적 조합을 발견하는 데 주력했습니다.

그러나 트랜스포머는 이러한 통념을 뒤집었습니다. 다양한 메커니즘을 결합할 필요가 없고, 필요한 것은 오직 어텐션 메커니즘뿐이라는 메시지가 논문의 제목에 담겨 있습니다.

물론 트랜스포머 자체에도 다양한 메커니즘이 통합되어 있지만, 그중에서도 어텐션 메커니즘이 특히 획기적이고 독특했다는 점은 의심할 여지가 없습니다.

어텐션 메커니즘 개요

어텐션 메커니즘은 자연어를 단어 단위로 처리하는 과정에서, 주어진 단어를 처리할 때 문장의 많은 선행 단어들 중 어떤 단어에 "주의를 기울여야" 하는지를 학습할 수 있는 시스템입니다.

이를 통해 "이것", "그것", "전술한"과 같이 이전 문장에 포함된 단어를 지칭하는 단어나, "서두 문장", "두 번째 예시", "이전 단락"과 같이 텍스트 내 위치를 나타내는 구문이 무엇을 참조하는지 정확하게 이해할 수 있습니다.

또한, 문장 내에서 수식어가 멀리 떨어져 있어도 단어를 올바르게 해석할 수 있으며, 텍스트가 길어지더라도 다른 문장들 사이에서 현재 단어의 문맥을 잃지 않고 해석할 수 있습니다.

이것이 바로 "어텐션"의 유용성입니다.

반대로, 이는 현재 처리 중인 단어를 해석할 때 불필요한 단어는 마스킹되어 해석에서 제거된다는 것을 의미하기도 합니다.

주어진 단어의 해석에 필요한 단어만 남기고 관련 없는 단어를 제거함으로써, 텍스트가 아무리 길어져도 해석할 단어의 집합은 소수로 제한되어 해석 밀도가 희석되는 것을 방지합니다.

가상 지능

이제 화제를 약간 바꿔서, 저는 가상 지능이라는 개념에 대해 생각해 왔습니다.

현재 기업에서 생성형 AI를 업무에 사용할 때, 회사 내의 모든 정보를 하나로 통합하여 생성형 AI에 지식으로 제공하면, 방대한 양의 지식 때문에 오히려 AI가 이를 적절하게 처리하기 어려워지는 현상이 발생합니다.

이러한 이유로, 작업을 기준으로 지식을 나누어 각 작업에 맞는 AI 챗을 준비하거나 특정 작업에 특화된 AI 도구를 만드는 것이 더 효과적입니다.

이는 복잡한 작업을 수행할 경우, 이렇게 분할된 지식 기반 AI 챗과 도구를 결합하는 것이 필요하다는 것을 의미합니다.

이는 현재 생성형 AI 사용의 한계점이지만, 미래의 생성형 AI에서도 특정 작업에 대해서는 해당 작업에 필요한 지식에만 집중하는 것이 더 높은 정확도를 가져올 것입니다.

그보다는 미래의 생성형 AI는 인간이 지식을 분할할 필요 없이, AI가 상황에 따라 필요한 지식 세트를 내부적으로 전환할 수 있게 될 것이라고 저는 생각합니다.

이러한 능력이 바로 가상 지능입니다. 이는 하나의 컴퓨터에서 여러 개의 다른 운영 체제를 실행할 수 있는 가상 머신과 같습니다. 즉, 하나의 지능 안에 서로 다른 전문성을 가진 여러 가상 지능이 기능할 수 있다는 것을 의미합니다.

현재의 생성형 AI조차도 이미 여러 사람 간의 토론을 시뮬레이션하거나 여러 등장인물이 나오는 이야기를 생성할 수 있습니다. 따라서 가상 지능은 특별한 능력이 아니라, 현재 생성형 AI의 확장이라고 볼 수 있습니다.

마이크로 가상 지능

작업에 따라 필요한 지식을 좁히는 가상 지능의 메커니즘은 어텐션 메커니즘과 유사한 작업을 수행합니다.

즉, 현재 처리 중인 작업에 따라 관련 지식에만 집중한다는 점에서 어텐션 메커니즘과 유사합니다.

반대로, 어텐션 메커니즘은 가상 지능과 같은 것을 구현하는 메커니즘이라고 할 수 있습니다. 하지만 제가 고려하는 가상 지능은 지식의 집합에서 관련 지식을 선택하는 메커니즘인 반면, 어텐션 메커니즘은 단어의 집합을 대상으로 작동합니다.

이러한 이유로 어텐션 메커니즘은 마이크로 가상 지능이라고 불릴 수 있습니다.

명시적 어텐션 메커니즘

어텐션 메커니즘을 마이크로 가상 지능으로 본다면, 반대로 앞서 언급한 가상 지능은 매크로 어텐션 메커니즘을 구축함으로써 구현될 수 있습니다.

그리고 이 매크로 어텐션 메커니즘은 대규모 언어 모델의 내부 구조에 추가되거나 신경망 학습을 수반할 필요가 없습니다.

단순히 "작업 A를 수행할 때는 지식 B와 지식 C를 참조하라"와 같이 자연어로 작성된 명시적인 문장으로 충분합니다.

이는 작업 A에 필요한 지식을 명확히 합니다. 이 문장 자체도 일종의 지식입니다.

이를 명시적 어텐션 메커니즘이라고 부를 수 있습니다. 이 문장은 작업 A를 수행할 때 집중해야 할 지식을 명시적으로 기술하는 어텐션 지식으로 설명될 수 있습니다.

더 나아가, 이 어텐션 지식은 생성형 AI에 의해 생성되거나 업데이트될 수 있습니다.

만약 지식 부족으로 인해 특정 작업이 실패한다면, 학습된 교훈으로서 해당 작업에 참조해야 할 추가 지식을 포함하도록 어텐션 지식을 업데이트할 수 있습니다.

결론

어텐션 메커니즘은 생성형 AI의 능력을 비약적으로 향상시켰습니다.

이는 단지 우연히 잘 작동하는 메커니즘이 아니었습니다. 여기서 살펴본 바와 같이, 각 상황에서 참조할 정보를 동적으로 좁히는 바로 그 메커니즘이 고급 지능의 본질인 것으로 보입니다.

그리고 가상 지능과 명시적 어텐션 지식처럼, 어텐션 메커니즘은 다양한 계층에서 지능을 재귀적으로 발전시키는 데 중요한 역할을 합니다.