[혁신] MIT-IBM의 AI 연구: 언어 모델의 독성을 자율 정화하는 새로운 기술 SASA

MIT-IBM의 AI 연구: 언어 모델의 독성 언어 자율 정화 기술

최근 MIT-IBM Watson AI Lab의 연구팀은 대규모 언어 모델(LLM)의 내부 언어 사용을 더 안전하고 윤리적으로 관리할 수 있는 새로운 방법인 ‘자기 절제 자기 회귀 샘플링(Self-Disciplined Autoregressive Sampling, SASA)’을 발표했습니다. 이 방법은 LLM이 독성 언어를 자율적으로 정화할 수 있도록 도와주며, 문장 생성 과정에서 인성이 반영될 수 있도록 설계되었습니다.

대부분의 인간은 언어를 사용하며 자아의 가치관이나 윤리를 반영하게 되는데, LLM도 이와 비슷한 방식으로 유해한 언어를 피하고 특정 맥락에서 적절한 표현을 선택할 능력을 가지게 됩니다. SASA는 모델의 매개변수를 변경하거나 재훈련 없이 자체적으로 독성을 평가하고 적합한 단어를 선택하는 시스템입니다.

SASA의 작동 원리 및 장점

SASA는 LLM의 내부 표현에서 독성과 비독성을 학습하여 적용합니다. 이 시스템은 문장이 상당 부분 생성된 상태에서 각 단어의 독치치를 평가하며, 독성 단어보다 비독성 단어의 선택 확률을 높입니다. 이러한 구조는 LLM이 점진적으로 더 적절한 언어로 발전할 수 있게끔 돕습니다. 연구진은 SASA가 독성 언어 생성을 감소시키고 동시에 문장의 유창성을 유지하는 효과를 입증했습니다.

SASA가 필요하게 된 이유

인터넷에서 수집된 방대한 양의 데이터로 학습한 LLM들은 종종 부적절한 언어 표현을 포함하고 있는 경향이 있습니다. 이로 인해 모델은 사용자에게 유해한 내용을 생성할 수 있는 가능성이 발현되며, 이는 경각심을 불러일으킵니다. 결과적으로, 이러한 자연 언어 처리 모델의 신뢰성을 높이는 것이 긴급한 과제가 되었습니다.

이러한 필요성으로 SASA는 기존의 표준에 비해 전반적으로 효과적인 독성 언어 완화 방법으로 발전하게 되었습니다. SASA는 소규모의 리소스만으로도 효과적으로 작동할 수 있기 때문에 필요한 복잡도에 비해 효율적인 솔루션이었습니다.

언어 모델의 독성 완화 평가

연구진은 SASA를 기존의 여러 방식과 비교하여 평가했습니다. 이 과정에서 세 가지 서로 다른 LLM(GPT2-Large, Llama2-7b, Llama3.1-8b-Instruct)을 사용하여 각 모델의 독성 생성 차이를 분석했습니다. SASA는 독성 점수와 비독성 점수를 평가하여 전반적인 독성 발생률을 대폭 낮추는 성과를 보였습니다.

특히, SASA를 사용했을 때 문장의 유창성 저하가 관찰되었으나, 전체적인 독성 생성을 줄이는 데에 있어 긍정적인 결과를 나타냈습니다. 이는 언어 사용에서 중요한 가치관을 유지하며 발언 내용의 안전성을 확보하는 데 실질적 기여를 했다 할 수 있습니다.

미래 지향적인 언어 모델 개발 방안

Ko와 연구진은 이 기술이 앞으로 여러 가지 사회적 가치에 맞춰 조정될 수 있다고 강조했습니다. SASA의 기본 원리를 다른 속성이나 언어 사용 지표와 결합하여 다중 속성을 가진 언어 모델의 개발 가능성을 엿볼 수 있습니다. 이는 언어 모델이 단순히 안전성 외에도 진실성, 친절함, 충성을 포함한 다양한 인간의 가치에 조정되어 작동할 수 있음을 시사합니다.

이러한 기술 개발이 교육이나 대화에서 긍정적인 영향력을 발휘할 수 있으며, 다양한 환경에서 적절하고 안전한 언어 생성이 이루어질 것으로 기대됩니다.

결론: AI 언어 모델의 진화

MIT와 IBM의 협력이 도출한 SASA 기술은 LLM이 언어 생성을 할 때 인간의 가치관을 반영할 수 있도록 지원하는 혁신적 접근법입니다. 이는 AI 언어 모델의 발전이 안전성을 확보하면서도 사용할 수 있는 언어의 질을 유지하는 방향으로 나아가야 함을 보여줍니다. 미래의 AI와 언어 모델이 더욱 발전하여 사회에 긍정적인 기여를 하기를 기대합니다.

위로 스크롤