대규모 언어 모델에서의 주의 집중 기제: 첫 번째 토큰의 중요성
최근 오픈AI의 연구에 따르면, 대규모 언어 모델(LLMs)에서는 입력 시퀀스의 첫 번째 토큰에 비정상적으로 높은 주의가 집중되는 현상, 즉 ‘주의 집중 기제'(attention sink)가 발생하고 있습니다. 첫 번째 토큰은 Transformer 모델의 여러 헤드에서 주의가 집중되는 경향이 있으며, 이러한 현상은 언뜻 보기에 중요하지 않은 것처럼 보일 수 있지만, 기계 학습의 최적화 및 안정성 유지에 중요한 역할을 합니다. 본 연구는 이러한 ‘주의 집중’의 원인과 기능적 역할을 깊이 탐구합니다.
첫 번째 토큰의 집중 주의: 과거 연구와의 차별점
다수의 연구에서는 ‘주의 집중 기제’를 줄이기 위한 접근법이 시도되어 왔으나, 이번 연구는 이러한 주의 집중이 심층 변환기(Transformer)에서 정보의 과도한 혼합을 방지하는 기능적인 역할을 한다고 주장합니다. 연구에 따르면, 초기 토큰인 ⟨bos⟩(beginning of sequence) 토큰은 모델의 주의를 제한하여 변동성을 줄이고 안정성을 높이는 데 기여합니다.
대규모 모델과의 실험: 쌓이는 주의의 의미
연구 전반에서 Gemma 7B 및 LLaMa 3.1 405B 등의 모델을 대상으로 실험을 진행하여, 깊은 모델과 긴 컨텍스트에서 주의 집중 기제가 더욱 두드러진다는 것을 밝혀냈습니다. 이러한 실험 결과들은 초깃값 집중이 단순한 우연이 아니라, 변환 모델이 깊고 긴 의존성을 처리하는 능력을 유지하는 데 필요한 구조적 요소임을 입증합니다.
인지적 문제 해결을 위한 기작의 연결 고리
‘주의 집중 기제’는 과도한 압축(over-squashing) 또는 정보의 혼합을 통해 모델의 성능을 저하시킬 수 있는 문제들과 연관되어 있습니다. 연구진은 자코비안 노름(Jacobian norms)과 같은 수학적 도구를 사용하여 정보 전파의 민감도를 줄임으로써 주의 집중 기제가 안정성을 제공하는 역할을 함을 증명하였습니다. <⟨bos⟩ 토큰이 모델의 중요한 기제로 작용하여 개별 토큰의 고유성을 유지하도록 돕습니다.
⟨bos⟩ 토큰과 주의 집중: 기계 학습에서의 양자화
⟨bos⟩ 토큰이 주의 집중에 어떠한 특별한 역할을 하는지를 중심으로 한 실험 결과, ⟨bos⟩가 명시적으로 표시되지 않는 경우에도 주의 집중이 첫 번째 토큰에서 형성됨을 확인하였습니다. 하지만, ⟨bos⟩가 항상 시퀀스 시작 부분에 위치하도록 설정할 경우, 모델은 이를 기반으로 주의를 강화하고 과도한 정보 혼합을 방지한다고 합니다. ⟨bos⟩를 제거하면 주의 집중이 크게 줄어들며, 이는 성능 저하로 이어집니다.
결론: 주의 집중 기제의 구조적 가치
결론적으로, 연구는 주의 집중 기제가 딥러닝 모델에서 흔히 발생하는 문제인 과잉 압축과 정보의 과잉 혼합 문제에 대한 구조적 해결책임을 보여줍니다. 초기 토큰에 대한 집중된 주의는 입력 소음에 대한 민감도를 줄이고 긴 컨텍스트에서 고유한 토큰 표현을 유지하는 데 기여합니다. 이러한 발견은 문맥 길이, 모델 깊이 및 훈련 설정이 주의 집중의 형성과 위치에 미치는 중요한 영향을 보여줍니다.
주요 기술적 통찰과 실증적 검증을 제공함으로써, 이번 연구는 대규모 언어 모델의 안정성과 효율성에 기여하는 구성 요소로서 주의 집중 기제를 제시합니다.
논문 전문을 확인하시려면 여기를 클릭하십시오. 연구에 대한 모든 크레딧은 해당 연구자들에게 귀속됩니다. 또한, 트위터를 팔로우 하여 최신 AI 소식을 받아보시고, 85k 이상의 ML 서브레딧에 참여해 주세요.